CN110502644B - 一种领域层级词典挖掘构建的主动学习方法 - Google Patents

一种领域层级词典挖掘构建的主动学习方法 Download PDF

Info

Publication number
CN110502644B
CN110502644B CN201910800936.5A CN201910800936A CN110502644B CN 110502644 B CN110502644 B CN 110502644B CN 201910800936 A CN201910800936 A CN 201910800936A CN 110502644 B CN110502644 B CN 110502644B
Authority
CN
China
Prior art keywords
word
domain
dictionary
words
professional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910800936.5A
Other languages
English (en)
Other versions
CN110502644A (zh
Inventor
梅珊
熊海涛
柴庆凤
贺惠新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Original Assignee
Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongfang Knowledge Network Digital Publishing Technology Co ltd filed Critical Tongfang Knowledge Network Digital Publishing Technology Co ltd
Priority to CN201910800936.5A priority Critical patent/CN110502644B/zh
Publication of CN110502644A publication Critical patent/CN110502644A/zh
Application granted granted Critical
Publication of CN110502644B publication Critical patent/CN110502644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种领域层级词典挖掘构建的主动学习方法,包括:构建领域专业词实体抽取模型,抽取领域文章中的专业词来生成底层原始专业词库;结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典;基于领域词典结合多种同义词生成方法生成领域同义词典;通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型,并总结相关优化过滤规则;基于领域词典及同义词典,结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。本发明有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词并构建层级词典,并方便在不同领域下进行扩展应用。

Description

一种领域层级词典挖掘构建的主动学习方法
技术领域
本发明涉及自然语言处理的计算机技术领域,尤其涉及一种领域层级词典挖掘构建的主动学习方法。
背景技术
自然语言是人类在长期生活中形成的一种承载信息的交流符号,这种符号语言的含义由人们的生活环境、领域分工以及工作经验所影响造就。而字作为语言信息表达的基本元素,有共同的经历人员会为表达特定领域的一种实体或者行为,而将字拼接起来形成专用词汇。
随着社会分工的不断分化,人们从事的领域类型不断增多,各领域中产生的专用词汇的数量也变得庞大,不同领域之间的词汇的意思也不尽相同,而对领域中语言涉及的领域专有词的认知,更需要通过在领域中的经验,而无法由字的拼接规律来推理表达。领域专有词的认识问题成为了自然语言语义理解的基本问题,基于专有词构建层级词典也自然而然成为进一步需要探讨的问题。
通过计算机自动挖掘领域专有词语并构建层级词典是很现实的应用需求。当前计算机的记忆功能强,而推理技能不足,在对领域专有词的认知上,基于人工规则的方法,重点在于从语法结构上分析构建构词规则,并在分析语料时完全利用规则发现词语,这种方法对参与人员的语言及领域的专业知识要求都很高,而人思考设计的遗漏必然导致词汇总结的缺失量更大,而且这种系统不便于迁移到不同领域上基于统计的方法从自然语言文本中分析词汇组成的概率,由于对领域的训练数据的体量足够大,这对人工标注的劳动要求很高,当前的主要处理方式多是在不分领域的熟语料上进行统一的训练学习生成模型,并最终用在不同领域上,这造成了准确率降低。挖掘出领域专有词汇并形成专有词汇字典,是为了后续的应用任务,而由于通用方法的针对性不足,加入了不同领域的专有词的会造成后续任务的失效。
发明内容
为解决上述技术问题,本发明的目的是提供一种领域层级词典挖掘构建的主动学习方法,该方法可结合一般语料进行建模分析,并在不同领域上进行变通应用,可有效提高专有词挖掘的准确性和全面性。
本发明的目的通过以下的技术方案来实现:
一种领域层级词典挖掘构建的主动学习方法,包括:
A构建领域专业词实体抽取模型,抽取领域文章中的专业词来生成底层原始专业词库;
B结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典;
C基于领域词典结合多种同义词生成方法生成领域同义词典;
D通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型,并总结相关优化过滤规则;
E基于领域词典及同义词典,结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
基于语料的领域相关性,提出了基于实体挖掘的专有词挖掘方法,基于最新的BERT构建BERT-BLSTM-CRF模型得到高准确率的专有词挖掘模型并生成高质量的候选领域词,结合领域已有的小规模专业词典,在计算候选词的支持度时赋予已被认可的专业词高的权值,完成领域新词的高质量筛选,进一步结合多种同义词生成方法生成高质量的领域同义词典,从而基于网络开放资源结合层级匹配模型及规则完成对已存在的符合认知的领域层级体系的扩充。
有效实现了计算机自动在自然语言的广泛语料中提取出领域相关的专有词并构建层级词典,并方便在不同领域下进行扩展应用,而提取后的词汇形成的领域专有词可补充进领域专业词典中,进一步供给计算机做后续的各种分析。
附图说明
图1是领域层级词典挖掘构建的主动学习方法流程图;
图2是领域词典及领域同义词典构建的流程图;
图3是领域层级词典的构建流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为领域层级词典挖掘构建的主动学习方法流程,包括:
步骤101构建领域专业词实体抽取模型,抽取领域文章中的专业词来生成底层原始专业词库;
步骤102结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典;
步骤103基于领域词典结合多种同义词生成方法生成领域同义词典;
步骤104通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型,并总结相关优化过滤规则;
步骤105基于领域词典及同义词典,结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充。
上述步骤102通过多种过滤条件的综合运用,并且在计算支持度的时候,结合已被高度认可的领域小规模的专业词,赋予专业词不同的权重,优化支持度的计算结果,更好地达到专业词过滤的效果。
上述方法可以划分为两个阶段的工作,第一阶段工作如图2所示,通过构建相应的专业词实体抽取模型(迭代优化)抽取领域文章中的特定专业词来生成底层原始词库,经信息熵、支持度及词性模板过滤等构建领域词典,结合多种同义词生成方法生成领域同义词典,为领域层级词典的构建提供可靠的底层数据;第二阶段如图3所示,通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型(迭代优化)并总结相关优化过滤规则,在第一阶段生成的领域词中进行领域层级词的预测抽取,实现领域层级词表的上下级扩充,并引入领域同义词实现领域层级词表的同级扩充。
具体操作步骤如下:
步骤一,获取模型训练阶段的依赖资源;获取已做好标记(各句子中的字符有确定的是否被标注为专业词即专有实体的标准答案)的N个句子的集合S={S(i)}为训练语料,要求N≥10000,各句子记为S(i),其中1≤i≤N。
步骤二,对训练语料的所有字符进行数据特征化预处理,得到每个字符的模型输入特征值和输出值,即根据输入的标记数据获得对应的tokens、input_ids、input_mask、segment_ids、label_ids作为BERT-BLSTM-CRF模型的特征输入和输出,进行医学实体抽取模型的训练(医学实体主要包括研究对象及研究方法等,均属于医学内的专业名词,所以可以作为挖掘领域词的原始词),操作如下:
1)分句预处理;
2)针对每个句子,进行特征化预处理;
Features={input_ids,input_mask,segment_ids,label_ids},其中tokens是原始语句按照字符切分,input_ids是基于tokens将每个字符转换为对应的字符索引数值,input_mask是字符掩码,segment_ids是语句标识,label_ids是每个字符对应的数字标签,实体标记采用传统的BIESO模式(B代表实体词的开头,I代表实体词的中间,E代表实体词的结尾,S代表单个字符的实体词,O代表的是非实体词字符,[CLS]和[SEP]是单独给语料新增的开头和结尾标志),字符标签与数字标签之间的转换关系设置为label2id={'O':1,'B':2,'I':3,'E':4,'S':5,'[CLS]':6,'[SEP]':7}。
3)输入到构建的BERT-BLSTM-CRF模型中,进行专业词抽取的模型训练;
4)保存模型并获取模型在测试集上的PRF值,针对模型进行调参迭代优化,保存最佳模型作为最红应用模型。
步骤三,对于领域内的所有待提取实体的文章语料G={G(i)},i≥1000000,对每篇文章进行以下处理:
1)分句预处理;
2)针对每个句子,应用步骤二中的方法进行特征化预处理;
3)输入到步骤二生成的模型中,获取每个句子的预测标签结果;
4)根据预测标签、label2id及BIESO标记规则生成实体词抽取结果;
5)汇总每个句子生成的实体词,得到每篇文章的实体词抽取结果;
6)汇总所有文章的实体词抽取结果,生成领域专业词备选词库。
步骤四,基于步骤三获取的领域专业词备选词库,融合领域的网络词库资源,生成领域词典备选总词库,并统计每个词在领域文章中的词频,针对高低频数据作不同的过滤操作。
1)针对高频词,根据各候选领域词的出现频数、凝合程度(支持度)及自由程度(信息熵),设置对应的阈值(迭代优化获取最佳阈值),提取满足所有阈值要求的候选词作为最终结果。
文本片段的凝合程度越高成词可能性越大,计算凝合程度需要枚举文本片段对应的所有凝合方式:这个文本片段是由哪几部分组合而来的,有多少种组合方式。令p(x)为文本片段x在整个语料中出现的概率,而{x1,x2,x3......xn}为x的某种组合方式,即x存在多种{x1,x2,x3......xn}的组合,那么我们定义‘x’的凝合程度就是在各种组合条件下x出现概率除以组合方式下各子片段概率积的结果的最小值,值得注意的是,与一般计算凝合程度不同的一点,其中针对分母中各子片段增加了专业词的权重赋值wi,如果属于已认可的专业词,则对应wi>1的任意正值,专业性越强的词值越大,不属于已认可的专业词,则对应wi=1:
文本片段的自由运用程度也是判断它是否成词的重要标准,如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有丰富的左邻字集合和右邻字集合。此时考虑左右邻字集合的信息量,计算左/右邻字集合信息熵。
2)针对低频词,考虑百度词库规模及其具有一定的权威性,利用第三方API进行词性分析,结合词性过滤模板进行领域词的过滤。
3)汇总高低频领域词典,经规则过滤迭代优化,生成最终版本的领域词典。
步骤五,基于领域词典,引入多种同义词生成方法生成领域同义词典,主要包括规则同义、大小写同义、词序颠倒同义、繁简体同义、中英文同义词、词向量同义等,其中规则由领域专家提供,中英文同义词由第三方翻译API及第三方百科知识结合生成,各同义规则下的同义词迭代优化,汇总生成最终的领域同义词典,多种同义词生成方法的综合运用,有效解决了当前没有任何一种有效同义词构建模型而无法直接挖掘同义词的问题。
步骤六考虑到不能对已存在的符合认知的层级体系进行破坏,可优先借鉴业界广泛认可的领域的语义层级知识体系,设定为领域层级词表的初始词表(如医学领域选择MESH词表作为初始词表),基于网络资源爬虫,在互联网开放域资源中进行层级种子词的初步扩充:从开放域资源相关网站中进行领域层级相关内容的查找、匹配和收集,生成初步领域层级结构。
引入残差结构的网络训练上下级词匹配模型(应用word2vec专业词向量模型,将上下位专业名词带入到词向量中作为训练集合,得出相应的特征向量,把得出的向量对其清洗后带入到深度参差神经网络中,训练得出模型。在测试预测阶段,预测出词向量,使用最近距离计算出topN和相应的距离作为上下位关系的置信度),根据模型的初步结果进行人工审核,增加一些层级词的过滤匹配规则(词频、上下级词的相似度、重合度等)来配合模型使用,在领域词典中进行层级词挖掘扩展领域层级结构,并引入领域同义词典,进行同级词的扩充。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (5)

1.一种领域层级词典挖掘构建的主动学习方法,其特征在于,所述方法包括:
A构建领域专业词实体抽取模型,抽取领域文章中的专业词来生成底层原始专业词库;
B结合信息熵、支持度及词性模板过滤底层原始专业词库构建领域词典;
C基于领域词典结合多种同义词生成方法生成领域同义词典;
D通过网络开放资源构建领域层级词的初始种子词,训练层级词预测模型,并总结相关优化过滤规则;
E基于领域词典及同义词典,结合层级词预测模型及优化规则完成领域层级词表的上下级扩充及同级扩充;
所述步骤C具体包括对于领域内的所有待提取实体的文章语料G={G(i)},i≥1000000,对每篇文章进行以下处理:
1)分句预处理;
2)针对每个句子,应用对训练语料的所有字符进行数据特征化预处理,得到每个字符的模型输入特征值和输出值的方法进行特征化预处理;
3)输入到BERT-BLSTM-CRF模型中,获取每个句子的预测标签结果;
4)根据预测标签、label2id及BIESO标记规则生成实体词抽取结果;
5)汇总每个句子生成的实体词,得到每篇文章的实体词抽取结果;
6)汇总所有文章的实体词抽取结果,生成领域专业词备选词库;
所述步骤D具体包括:基于获取的领域专业词备选词库,融合领域的网络词库资源,生成领域词典备选总词库,并统计每个词在领域文章中的词频,针对高低频数据作不同的过滤操作;
1)针对高频词,根据各候选领域词的出现频数、凝合程度及自由程度,设置对应的阈值,提取满足所有阈值要求的候选词作为最终结果;
文本片段的凝合程度越高成词可能性越大,计算凝合程度需要枚举文本片段对应的所有凝合方式:这个文本片段是由哪几部分组合而来的,有多少种组合方式;令p(x)为文本片段x在整个语料中出现的概率,而{x1,x2,x3......xn}为x的某种组合方式,即x存在多种{x1,x2,x3......xn}的组合,定义‘x’的凝合程度就是在各种组合条件下x出现概率除以组合方式下各子片段概率积的结果的最小值,与一般计算凝合程度不同的一点,其中针对分母中各子片段增加了专业词的权重赋值wi,如果属于已认可的专业词,则对应wi>1的任意正值,专业性越强的词值越大,不属于已认可的专业词,则对应wi=1:
文本片段的自由运用程度也是判断它是否成词的重要标准,如果一个文本片段能够算作一个词的话,能够灵活地出现在各种不同的环境中,具有左邻字集合和右邻字集合;考虑左右邻字集合的信息量,计算左/右邻字集合信息熵;
2)针对低频词,利用API进行词性分析,结合词性过滤模板进行领域词的过滤;
3)汇总高低频领域词典,经规则过滤迭代优化,生成最终版本的领域词典;
所述领域同义词典包括:规则同义、大小写同义、词序颠倒同义、繁简体同义、中英文同义词与词向量同义;各同义规则下的同义词迭代优化,汇总生成最终的领域同义词典。
2.如权利要求1所述的领域层级词典挖掘构建的主动学习方法,其特征在于,所述步骤A具体包括:获取模型训练阶段的依赖资源,即获取已做好标记的N个句子的集合为训练语料;对训练语料的所有字符进行数据特征化预处理,得到每个字符的模型输入特征值和输出值;对领域内的所有待提取实体的文章进行处理。
3.如权利要求1所述的领域层级词典挖掘构建的主动学习方法,其特征在于,所述领域专业词包括领域的研究对象与研究方法;其中,研究对象是论文主要研究目标的核心主体;研究方法是论文涉及到的主要技术,引入BERT预训练模型构建BERT-BLSTM-CRF模型。
4.如权利要求1所述的领域层级词典挖掘构建的主动学习方法,其特征在于,所述步骤B具体包括:基于获取的领域专业词备选词库,融合领域的网络词库资源,生成领域词典备选总词库,并统计每个词在领域文章中的词频,针对高频数据和低频数据作不同的过滤操作。
5.如权利要求1所述的领域层级词典挖掘构建的主动学习方法,其特征在于,所述步骤E具体包括:基于已有的领域词完成层级词的扩展,并且引入同义词进行层级词的同级扩展。
CN201910800936.5A 2019-08-28 2019-08-28 一种领域层级词典挖掘构建的主动学习方法 Active CN110502644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910800936.5A CN110502644B (zh) 2019-08-28 2019-08-28 一种领域层级词典挖掘构建的主动学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910800936.5A CN110502644B (zh) 2019-08-28 2019-08-28 一种领域层级词典挖掘构建的主动学习方法

Publications (2)

Publication Number Publication Date
CN110502644A CN110502644A (zh) 2019-11-26
CN110502644B true CN110502644B (zh) 2023-08-04

Family

ID=68590128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910800936.5A Active CN110502644B (zh) 2019-08-28 2019-08-28 一种领域层级词典挖掘构建的主动学习方法

Country Status (1)

Country Link
CN (1) CN110502644B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113761905A (zh) * 2020-07-01 2021-12-07 北京沃东天骏信息技术有限公司 一种领域建模词汇表的构建方法和装置
CN111950264B (zh) * 2020-08-05 2024-04-26 广东工业大学 文本数据增强方法及知识元抽取方法
CN112269858B (zh) * 2020-10-22 2024-04-19 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112463950B (zh) * 2020-12-10 2023-10-24 中国科学院深圳先进技术研究院 文献搜索方法、装置及电子设备
CN112632985A (zh) * 2020-12-18 2021-04-09 国网北京市电力公司 语料的处理方法、装置、存储介质及处理器
CN112733547A (zh) * 2020-12-28 2021-04-30 北京计算机技术及应用研究所 一种利用语义依存分析的中文问句语义理解方法
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113268996A (zh) * 2021-06-02 2021-08-17 网易有道信息技术(北京)有限公司 用于扩充语料的方法和用于翻译模型的训练方法及产品
CN113486153A (zh) * 2021-07-20 2021-10-08 上海明略人工智能(集团)有限公司 一种领域知识抽取方法、系统、电子设备及介质
CN113836901B (zh) * 2021-09-14 2023-11-14 灵犀量子(北京)医疗科技有限公司 一种中英文医学同义词数据清洗方法及系统
CN115098556A (zh) * 2022-07-22 2022-09-23 重庆长安汽车股份有限公司 用户需求匹配方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314947A (ja) * 1995-05-22 1996-11-29 Mainichi Shinbunsha:Kk キーワード自動抽出装置
CN105653519A (zh) * 2015-12-30 2016-06-08 贺惠新 一种领域专有词的挖掘方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107577739A (zh) * 2017-08-28 2018-01-12 深圳市空谷幽兰人工智能科技有限公司 一种半监督的领域词挖掘与分类的方法和设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314947A (ja) * 1995-05-22 1996-11-29 Mainichi Shinbunsha:Kk キーワード自動抽出装置
CN105653519A (zh) * 2015-12-30 2016-06-08 贺惠新 一种领域专有词的挖掘方法
CN106610955A (zh) * 2016-12-13 2017-05-03 成都数联铭品科技有限公司 基于词典的多维度情感分析方法
CN107577739A (zh) * 2017-08-28 2018-01-12 深圳市空谷幽兰人工智能科技有限公司 一种半监督的领域词挖掘与分类的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文词汇语义关系抽取及应用研究;孙玉杰;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20141215;第I138-491页 *

Also Published As

Publication number Publication date
CN110502644A (zh) 2019-11-26

Similar Documents

Publication Publication Date Title
CN110502644B (zh) 一种领域层级词典挖掘构建的主动学习方法
AU2020103654A4 (en) Method for intelligent construction of place name annotated corpus based on interactive and iterative learning
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110825881B (zh) 一种建立电力知识图谱的方法
CN111209412B (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
US8069027B2 (en) Word alignment apparatus, method, and program product, and example sentence bilingual dictionary
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN110825721A (zh) 大数据环境下高血压知识库构建与系统集成方法
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN109062904B (zh) 逻辑谓词提取方法和装置
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112101014B (zh) 一种混合特征融合的中文化工文献分词方法
CN111967267B (zh) 一种基于XLNet的新闻文本地域提取的方法及系统
CN113160917B (zh) 一种电子病历实体关系抽取方法
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
JP6077727B1 (ja) 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
Ansari et al. Language Identification of Hindi-English tweets using code-mixed BERT
Ding et al. A knowledge-enriched and span-based network for joint entity and relation extraction
CN114330349A (zh) 一种特定领域命名实体识别方法
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Mei Shan

Inventor after: Xiong Haitao

Inventor after: Chai Qingfeng

Inventor after: He Huixin

Inventor before: Mei Shan

Inventor before: Xiong Hai

Inventor before: Chai Qingfeng

Inventor before: He Huixin

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20230629

Address after: Rooms B201, B202, B203, B205, B206, B207, B208, B209, B210, 2nd Floor, Building B-2, Zhongguancun Dongsheng Science and Technology Park, No. 66 Xixiaokou Road, Haidian District, Beijing, 100084 (Dongsheng District)

Applicant after: TONGFANG KNOWLEDGE NETWORK DIGITAL PUBLISHING TECHNOLOGY CO.,LTD.

Address before: 100084 Beijing city Haidian District Tsinghua University Tsinghua Yuan 36 zone B1410, Huaye building 1412, room 1414

Applicant before: TONGFANG KNOWLEDGE NETWORK (BEIJING) TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant