CN111798986B - 一种数据增强的方法和设备 - Google Patents

一种数据增强的方法和设备 Download PDF

Info

Publication number
CN111798986B
CN111798986B CN202010648077.5A CN202010648077A CN111798986B CN 111798986 B CN111798986 B CN 111798986B CN 202010648077 A CN202010648077 A CN 202010648077A CN 111798986 B CN111798986 B CN 111798986B
Authority
CN
China
Prior art keywords
data
language model
chinese
content
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010648077.5A
Other languages
English (en)
Other versions
CN111798986A (zh
Inventor
李慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010648077.5A priority Critical patent/CN111798986B/zh
Publication of CN111798986A publication Critical patent/CN111798986A/zh
Application granted granted Critical
Publication of CN111798986B publication Critical patent/CN111798986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种数据增强的方法和设备,该方法包括:基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与内容相关领域的第一语言模型;通过数据集对第一语言模型进行调整,以得到第二语言模型;数据集中的各数据包括内容与内容对应的类别;在第二语言模型输入对应类别的前缀,得到多个对应类别的语料;利用由数据集训练得到的分类模型对各语料进行评分,并基于评分筛选出的语料作为数据增强后的数据。通过GPT2语言模型,解决了生成语料的多样性的问题,且基于中文专业数据对GPT2语言模型的调整,可以生成任意特定类别的医疗语料,通过GPT2语言模型和分类模型双重筛选的方式,避免了所生成得语料不能推断对应类别的问题。

Description

一种数据增强的方法和设备
技术领域
本发明涉及数据增强处理技术领域,特别涉及一种数据增强的方法和设备
背景技术
具体的,目前在处理医疗领域的分类任务时,需要收集特定类别的医疗语料,同时还依赖专业的医生对数据进行标注由此,若存在在数据量不足的情况,现有的技术方案中,往往依赖于同义词替换,或者利用back-translation(反向翻译)来做数据增强,生成新的有标注的医疗语料,但是这种方法存在一些问题:
首先,医疗领域下的同义词词典构建困难,并且生成的数据的多样性不够,其次,利用back-translation在通用领域往往能取得不错的效果,但是在医疗领域下往往存在医疗实体漏翻译的情况,导致生成的语料不能推断出对应的类别。
由此,目前需要一种更好的办法来解决该技术问题。
发明内容
针对现有技术中的缺陷,本发明提出了一种数据增强的方法和设备,通过GPT2语言模型,解决了生成语料的多样性的问题,且基于中文专业数据对GPT2语言模型的调整,可以生成任意多的特定类别的医疗语料,本方案中采用GPT2语言模型和分类模型双重筛选的方式,避免了所生成得语料不能推断对应类别的问题。
具体的,本发明提出了以下具体的实施例:
本发明实施例提出了一种数据增强的方法,包括:
基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与所述内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;
通过数据集对所述第一语言模型进行调整,以得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;
在所述第二语言模型输入对应所述类别的前缀,得到多个对应所述类别的语料;
利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。
在一个具体的实施例中,
所述中文通用数据包括以下一个或多个的任意组合:中文百度百科数据、中文的新闻数据、中文的书籍数据。
在一个具体的实施例中,所述中文专业数据包括:中文医疗文献数据;
所述第一语言模型为医疗领域的语言模型。
在一个具体的实施例中,
所述“通过数据集对所述第一语言模型进行调整,以得到第二语言模型”包括:
将数据集中的各数据按照指定格式对内容与类别进行拼接,得到拼接数据;
将所述拼接数据输入所述第一语言模型,以对所述第一语言模型进行调整,得到第二语言模型。
在一个具体的实施例中,所述拼接数据为:
y1SEPx1EOSy2SEPx2EOS···ynSEPxn
其中,yi为所述类别;xi为所述内容;SEP为所述内容与所述类别的分割符;EOS为一个实体对的数据的结束符号。
在一个具体的实施例中,
所述对应所述类别的前缀为:yjSEP;
所生成的N个对应所述类别的语料为:
其中,yj为类别。
在一个具体的实施例中,所述“基于评分筛选出的所述语料作为数据增强后的数据”,包括:
筛选出所述评分高于阈值的语料作为数据增强后的数据。
本发明实施例还提出了一种数据增强的设备,包括:
第一生成模块,用于基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与所述内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;
第二生成模块,用于通过数据集对所述第一语言模型进行调整,以得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;
得到模块,用于在所述第二语言模型输入对应所述类别的前缀,得到多个对应所述类别的语料;
增强模块,用于利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。
在一个具体的实施例中,
所述中文通用数据包括以下一个或多个的任意组合:中文百度百科数据、中文的新闻数据、中文的书籍数据。
在一个具体的实施例中,所述中文专业数据包括:中文医疗文献数据;
所述第一语言模型为医疗领域的语言模型。
以此,本发明实施例提出了一种数据增强的方法和设备,该方法包括:基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与所述内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;通过数据集对所述第一语言模型进行调整,以得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;在所述第二语言模型输入对应所述类别的前缀,得到多个对应所述类别的语料;利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。通过GPT2语言模型,解决了生成语料的多样性的问题,且基于中文专业数据对GPT2语言模型的调整,可以生成任意多的特定类别的医疗语料,本方案中采用GPT2语言模型和分类模型双重筛选的方式,避免了所生成得语料不能推断对应类别的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提出的一种数据增强的方法的流程示意图;
图2为本发明实施例提出的一种数据增强的方法的流程示意图;
图3为本发明实施例提出的一种数据增强的方法的框架示意图;
图4为本发明实施例提出的一种数据增强的设备的结构示意图。
具体实施方式
在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。
在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。
实施例1
本发明实施例1公开了一种数据增强的方法,如图1所示,包括以下步骤:
步骤101、基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与所述内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;
具体的,所述中文通用数据包括以下一个或多个的任意组合:中文百度百科数据、中文的新闻数据、中文的书籍数据。
由此,在步骤101之前,如图3所示,先用中文百度百科,新闻以及书籍训练一个通用的中文的GPT2语言模型G。
所述中文专业数据包括:中文医疗文献数据;
所述第一语言模型为医疗领域的语言模型。
具体的,如图3所示,在得到GPT2语言模型G之后,再用中文的医疗文献,在通用的GPT2语言模型上微调,得到一个医疗领域下的语言模型M。
步骤102、通过数据集对所述第一语言模型进行调整,以得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;
具体的,如图2所示,步骤102中的所述“通过数据集对所述第一语言模型进行调整,以得到第二语言模型”包括:
将数据集中的各数据按照指定格式对内容与类别进行拼接,得到拼接数据;
将所述拼接数据输入所述第一语言模型,以对所述第一语言模型进行调整,得到第二语言模型。
所述拼接数据为:
y1SEPx1EOSy2SEPx2EOS···ynSEPxn
其中,yi为所述类别;xi为所述内容;SEP为所述内容与所述类别的分割符;EOS为一个实体对的数据的结束符号。
由此,具体的,如图3所示,将训练数据(也即数据集中的各数据)拼接成y1SEPx1EOSy2SEPx2EOS···ynSEPxn,输入到模型M中,进一步fine-tune医疗语言模型M,得到任务相关的语言模型S。
具体的,训练数据或给定分类任务数据集也即数据集其中,x表示输入的医疗的文本,y代表对应的类别,其中y∈{Y1,Y2,···Ym﹜,Yj代表具体的类别名称。
步骤103、在所述第二语言模型输入对应所述类别的前缀,得到多个对应所述类别的语料;
具体的,所述对应所述类别的前缀为:yjSEP;所生成的N个对应所述类别的语料为:其中,yj为类别。
在实际应用的场景中,输入对应类别的前缀yjSEP,用模型S生成N个对应的类别的语料并将生成的数据记为D’。
步骤104、利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。
在一个具体的实施例中,步骤104中的所述“基于评分筛选出的所述语料作为数据增强后的数据”,包括:
筛选出所述评分高于阈值的语料作为数据增强后的数据。
具体的,根据数据Dtrain,训练一个分类模型C,然后利用模型C对上述步骤103中的生成的数据对D'上每个样本进行打分,将置信度低的样本去掉,得到新的数据集D*,D*即是通过数据增强方式得到的数据。
本方案利用医疗领域下的GPT2,解决了生成语料的多样性的问题,用带标签的特定领域的语料进行进一步的微调,能保证生成任意多的特定类别的医疗语料,采用GPT2和分类模型双重筛选,避免了生成语料不能推断对应类别的问题。
实施例2
本发明实施例2还公开了一种数据增强的设备,如图4所示,包括:
第一生成模块201,用于基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与所述内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;
第二生成模块202,用于通过数据集对所述第一语言模型进行调整,以得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;
得到模块203,用于在所述第二语言模型输入对应所述类别的前缀,得到多个对应所述类别的语料;
增强模块204,用于利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。
在一个具体的实施例中,
所述中文通用数据包括以下一个或多个的任意组合:中文百度百科数据、中文的新闻数据、中文的书籍数据。
在一个具体的实施例中,所述中文专业数据包括:中文医疗文献数据;
所述第一语言模型为医疗领域的语言模型。
在一个具体的实施例中,
第二生成模块202,用于:
将数据集中的各数据按照指定格式对内容与类别进行拼接,得到拼接数据;
将所述拼接数据输入所述第一语言模型,以对所述第一语言模型进行调整,得到第二语言模型。
在一个具体的实施例中,所述拼接数据为:
y1SEPx1EOSy2SEPx2EOS···ynSEPx;
其中,yi为所述类别;xi为所述内容;SEP为所述内容与所述类别的分割符;EOS为一个实体对的数据的结束符号。
在一个具体的实施例中,
所述对应所述类别的前缀为:yjSEP;
所生成的N个对应所述类别的语料为:
其中,yj为类别。
增强模块204“基于评分筛选出的所述语料作为数据增强后的数据”,包括:
筛选出所述评分高于阈值的语料作为数据增强后的数据。
以此,本发明实施例提出了一种数据增强的方法和设备,该方法包括:基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与所述内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;通过数据集对所述第一语言模型进行调整,以得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;在所述第二语言模型输入对应所述类别的前缀,得到多个对应所述类别的语料;利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。通过GPT2语言模型,解决了生成语料的多样性的问题,且基于中文专业数据对GPT2语言模型的调整,可以生成任意多的特定类别的医疗语料,本方案中采用GPT2语言模型和分类模型双重筛选的方式,避免了所生成得语料不能推断对应类别的问题。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (7)

1.一种数据增强的方法,其特征在于,包括:
基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;
将数据集中的各数据按照指定格式对内容与类别进行拼接,得到拼接数据:y1SEPx1EOSy2SEPx2EOS···ynSEPxn;其中,yi为所述类别;xi为所述内容;SEP为所述内容与所述类别的分割符;EOS为一个实体对的数据的结束符号;
将所述拼接数据输入所述第一语言模型,以对所述第一语言模型进行调整,得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;
在所述第二语言模型输入对应所述类别的前缀:yjSEP,得到多个对应所述类别的语料:其中,yj为类别;
利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。
2.如权利要求1所述的一种数据增强的方法,其特征在于,
所述中文通用数据包括以下一个或多个的任意组合:中文百度百科数据、中文的新闻数据、中文的书籍数据。
3.如权利要求1所述的一种数据增强的方法,其特征在于,所述中文专业数据包括:中文医疗文献数据;
所述第一语言模型为医疗领域的语言模型。
4.如权利要求1所述的一种数据增强的方法,其特征在于,所述“基于评分筛选出的所述语料作为数据增强后的数据”,包括:
筛选出所述评分高于阈值的语料作为数据增强后的数据。
5.一种数据增强的设备,其特征在于,包括:
第一生成模块,用于基于与内容相关的中文专业数据对GPT2语言模型进行调整,以得到与内容相关领域的第一语言模型;其中,所述GPT2语言模型基于中文通用数据训练得到;
第二生成模块,用于
将数据集中的各数据按照指定格式对内容与类别进行拼接,得到拼接数据:y1SEPx1EOSy2SEPx2EOS···ynSEPxn;其中,yi为所述类别;xi为所述内容;SEP为所述内容与所述类别的分割符;EOS为一个实体对的数据的结束符号;
将所述拼接数据输入所述第一语言模型,以对所述第一语言模型进行调整,得到第二语言模型;所述数据集中的各数据包括所述内容与所述内容对应的类别;
得到模块,用于在所述第二语言模型输入对应所述类别的前缀:yjSEP,得到多个对应所述类别的语料:其中,yj为类别;
增强模块,用于利用由所述数据集训练得到的分类模型对各所述语料进行评分,并基于所述评分筛选出的所述语料作为数据增强后的数据。
6.如权利要求5所述的一种数据增强的设备,其特征在于,
所述中文通用数据包括以下一个或多个的任意组合:中文百度百科数据、中文的新闻数据、中文的书籍数据。
7.如权利要求5所述的一种数据增强的设备,其特征在于,所述中文专业数据包括:中文医疗文献数据;
所述第一语言模型为医疗领域的语言模型。
CN202010648077.5A 2020-07-07 2020-07-07 一种数据增强的方法和设备 Active CN111798986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010648077.5A CN111798986B (zh) 2020-07-07 2020-07-07 一种数据增强的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010648077.5A CN111798986B (zh) 2020-07-07 2020-07-07 一种数据增强的方法和设备

Publications (2)

Publication Number Publication Date
CN111798986A CN111798986A (zh) 2020-10-20
CN111798986B true CN111798986B (zh) 2023-11-03

Family

ID=72810446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010648077.5A Active CN111798986B (zh) 2020-07-07 2020-07-07 一种数据增强的方法和设备

Country Status (1)

Country Link
CN (1) CN111798986B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
KR20040055292A (ko) * 2002-12-20 2004-06-26 한국전자통신연구원 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법
US8239200B1 (en) * 2008-08-15 2012-08-07 Google Inc. Delta language model
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN109388743A (zh) * 2017-08-11 2019-02-26 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7835911B2 (en) * 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US10402442B2 (en) * 2011-06-03 2019-09-03 Microsoft Technology Licensing, Llc Semantic search interface for data collections

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832428A (en) * 1995-10-04 1998-11-03 Apple Computer, Inc. Search engine for phrase recognition based on prefix/body/suffix architecture
KR20040055292A (ko) * 2002-12-20 2004-06-26 한국전자통신연구원 영역 외 코퍼스를 이용한 영역 종속적 훈련 코퍼스 보강시스템 및 그 방법
US8239200B1 (en) * 2008-08-15 2012-08-07 Google Inc. Delta language model
CN104965867A (zh) * 2015-06-08 2015-10-07 南京师范大学 基于chi特征选取的文本事件分类方法
CN109388743A (zh) * 2017-08-11 2019-02-26 阿里巴巴集团控股有限公司 语言模型的确定方法和装置
CN110083831A (zh) * 2019-04-16 2019-08-02 武汉大学 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN110489555A (zh) * 2019-08-21 2019-11-22 创新工场(广州)人工智能研究有限公司 一种结合类词信息的语言模型预训练方法
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于深度学习的学术论文语步结构分类方法研究;王末;崔运鹏;陈丽;李欢;;数据分析与知识发现(第06期);全文 *
基于语言模型的信息检索系统研究;张俊林;中国博士学位论文全文数据库 信息科技辑;I138-72 *

Also Published As

Publication number Publication date
CN111798986A (zh) 2020-10-20

Similar Documents

Publication Publication Date Title
Saiegh-Haddad A tale of one letter: Morphological processing in early Arabic spelling
CN111798986B (zh) 一种数据增强的方法和设备
Chklovski et al. The Senseval-3 multilingual English-Hindi lexical sample task
Keith English in the Japanese linguistic landscape: An awareness-raising activity examining place, form, and reason
US11010978B2 (en) Method and system for generating augmented reality interactive content
Roldán-Robles et al. A conceptual architecture for content analysis about abortion using the Twitter platform
Studemund-Halévy From Rashi to Cyrillic: Bulgarian Judeo-Spanish (Judezmo) Texts in Cyrillic
Sukur et al. Error Analysis in Translation of Quotations in Online News Feature
Hayati TRANSLATION TECHNIQUES USED IN TRANSLATING THE CAPTIONS OF ANIYUDHOYONO’S INSTAGRAM
Kiser Comanches and Germans on the Texas Frontier: The Ethnology of Heinrich Berghaus
Mathai The global family planning revolution: three decades of population policies and programmes
Tessmer BOOK REVIEW: Gender, Neoliberalism, and Distinction through Linguistic Capital: Taiwanese Narratives of Struggle and Strategy (Mark Fifer Seilhamer, 2019)
CN107111601A (zh) 基于手写注释来标识资源
Allan Ethnicity, race and health in a multicultural environment: foundations for better epidemiology, public health and health care
Stewart Renaissance talk: ordinary language and the mystique of critical problems
Renker et al. Women from the parsonage: pastors’ daughters as writers, translators, salonnières, and educators
Padgett The Holy Spirit and Higher Education: Renewing the Christian University, by Amos Yong and Dale M. Coulter
Farhan Al-Rashidi Arabicization as a Method that Enriches the Arabic Language and Plays a Role in Translation.
Desser Reorienting Ozu: A Master and His Influence ed. by Jinhee Choi
Dowson Nancy Cunard: Perfect Stranger by Jane Marcus
Satter Tearing Real Images from Clichés through Edward Burtynsky's Manufactured Landscapes.
Grønlie Cathay: A Critical Edition ed. by Timothy Billings
Soulodre-La France The Spanish Monarchy and the Creation of the Viceroyalty of New Granada (1717–1739): The Politics of Early Bourbon Reform in Spain and Spanish America
Pearson Using Your Outside Voice: Public Biblical Interpretation, written by Greg Carey
Chen New Directions in Travel Writing Studies eds. by Julia Kuehn and Paul Smethurst

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant