CN113536789A - 算法比赛关联性预测方法、装置、设备及介质 - Google Patents

算法比赛关联性预测方法、装置、设备及介质 Download PDF

Info

Publication number
CN113536789A
CN113536789A CN202111088467.2A CN202111088467A CN113536789A CN 113536789 A CN113536789 A CN 113536789A CN 202111088467 A CN202111088467 A CN 202111088467A CN 113536789 A CN113536789 A CN 113536789A
Authority
CN
China
Prior art keywords
sample
data
word
subset
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111088467.2A
Other languages
English (en)
Other versions
CN113536789B (zh
Inventor
陈宇
张莉
姜敏华
张茜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202111088467.2A priority Critical patent/CN113536789B/zh
Publication of CN113536789A publication Critical patent/CN113536789A/zh
Application granted granted Critical
Publication of CN113536789B publication Critical patent/CN113536789B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能领域,提供一种算法比赛关联性预测方法、装置、设备及介质,能够在按照比例拆分后,利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码,利用替换后的所述第二样本集训练BERT模型,得到预测模型,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景,进而基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。此外,本发明还涉及区块链技术,预测模型可存储于区块链节点中。

Description

算法比赛关联性预测方法、装置、设备及介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种算法比赛关联性预测方法、装置、设备及介质。
背景技术
随着人工智能技术的不断发展,经常有算法比赛举办,但是各场比赛大同小异。
因此,举办方为了避免出现相似比赛,通常需要人工进行相似比赛的搜索及判定,不仅耗费人力,且效率较低。参赛选手为了吸取以往类似比赛的经验,也常常需要进行相似比赛的检索。
但是,现有技术中在判断算法比赛间的关联性时,通常需要人工进行处理,不仅容易产生错误,且效率较低。在利用模型进行关联性预测时,由于现有的模型大多适用于字符形式的文本,对中文场景预测的准确率也不高。
发明内容
本发明实施例提供了一种算法比赛关联性预测方法、装置、设备及介质,能够基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。
第一方面,本发明实施例提供了一种算法比赛关联性预测方法,其包括:
获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;
对所述第一样本集中的每个样本进行分词处理,得到第二样本集;
对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;
按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;
确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;
利用替换后的所述第二样本集训练BERT模型,得到预测模型;
当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;
根据所述输出数据计算所述待预测数据中数据间的关联性。
根据本发明优选实施例,所述对所述第一样本集中的每个样本进行分词处理,得到第二样本集包括:
获取预先构建的词典,并根据所述词典构建分词模型;
利用所述分词模型对每个样本进行分词处理,得到候选词;
利用所述候选词构建有向无环图;
对于所述有向无环图中的登录词,基于动态规划算法查找所述有向无环图的最大概率路径,得到基于词频的切分组合,并利用所述切分组合对所述登录词进行切分,得到第一分词结果;
对于所述有向无环图中的未登录词,采用HMM算法及Viterbi 算法对所述未登录词进行规划,得到第二分词结果;
根据所述第一分词结果及所述第二分词结果生成每个样本的分词;
整合每个样本的分词,得到所述第二样本集。
根据本发明优选实施例,所述确定每个第一子集中每个字的相似字包括:
启动WordNet接口;
将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典;
在所述WordNet词典中查询每个字,得到候选字集;
当接收到通过所述WordNet接口返回的所述候选字集时,从所述候选字集中随机获取任意字作为对应的每个字的相似字。
根据本发明优选实施例,所述利用替换后的所述第二样本集训练BERT模型,得到预测模型包括:
确定所述第二样本集中每个第二样本的标注及替换前的形式;
将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型;
当所述BERT模型达到收敛时,停止训练;
将收敛时得到的模型确定为所述预测模型。
根据本发明优选实施例,在得到所述预测模型后,所述方法还包括:
从所述第二样本集中获取真正例、真负例、假正例及假负例;
将所述真正例的样本量确定为第一样本量,将所述真负例的样本量确定为第二样本量,将所述假正例的样本量确定为第三样本量,将所述假负例的样本量确定为第四样本量;
计算所述第一样本量与所述第二样本量的和作为第一数值;
计算所述第一样本量、所述第二样本量、所述第三样本量及所述第四样本量的和作为第二数值;
计算所述第一数值与所述第二数值的商作为准确率;
当所述准确率大于或者等于配置准确率时,确定所述预测模型通过验证。
根据本发明优选实施例,所述根据所述输出数据计算所述待预测数据中数据间的关联性包括:
从所述输出数据中获取所述预测模型在输出层的CLS输出;
利用Sigmoid函数处理所述CLS输出,得到概率值;
获取预设阈值;
当所述概率值大于或者等于所述预设阈值时,确定所述待预测数据中的数据间具有关联性;或者
当所述概率值小于所述预设阈值时,确定所述待预测数据中的数据间不具有关联性。
根据本发明优选实施例,在根据所述输出数据计算所述待预测数据中数据间的关联性后,所述方法还包括:
获取上传所述待预测数据的用户;
当确定所述待预测数据中的数据间具有关联性时,将所述待预测数据传输至所述用户的终端设备;或者
当确定所述待预测数据中的数据间不具有关联性时,向所述用户的终端设备发送提示信息,所述提示信息用于提示所述待预测数据中的数据间不具有关联性。
第二方面,本发明实施例提供了一种算法比赛关联性预测装置,其包括:
标注单元,用于获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;
分词单元,用于对所述第一样本集中的每个样本进行分词处理,得到第二样本集;
构建单元,用于对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;
拆分单元,用于按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;
替换单元,用于确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;
训练单元,用于利用替换后的所述第二样本集训练BERT模型,得到预测模型;
输入单元,用于当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;
计算单元,用于根据所述输出数据计算所述待预测数据中数据间的关联性。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的算法比赛关联性预测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的算法比赛关联性预测方法。
本发明实施例提供了一种算法比赛关联性预测方法、装置、设备及介质,能够获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集,对所述第一样本集中的每个样本进行分词处理,得到第二样本集,对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集,按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集,确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码,利用替换后的所述第二样本集训练BERT模型,得到预测模型,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,因此,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景,当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据,根据所述输出数据计算所述待预测数据中数据间的关联性,进而基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。此外,本发明还涉及区块链技术,预测模型可存储于区块链节点中。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的算法比赛关联性预测方法的流程示意图;
图2为本发明实施例提供的算法比赛关联性预测装置的示意性框图;
图3为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和 “包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,为本发明实施例提供的算法比赛关联性预测方法的流程示意图。
S10,获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集。
在本发明的至少一个实施例中,可以采用网络爬虫技术从各大比赛网站上爬取所述历史算法比赛数据。
例如:可以采用requests+scrapy工具从各大比赛网站上爬取所述历史算法比赛数据。
在本实施例中,所述历史算法比赛数据可以包括,但不限于以下一种或者多种数据的组合:
Baseline方案、比赛赛题、举办方信息。
其中,所述Baseline方案是指所述比赛赛题的基准方案及基准分数。
在本发明的至少一个实施例中,可以采用人工标注的方式对所述历史算法比赛数据进行标注处理,然后再将标注结果回传,进而构建所述第一样本集,本发明对标注的方式不限制。
例如:当两个算法比赛都是“阅读理解比赛”时,可以标注为1;当两个算法比赛一个为“阅读理解比赛”,另一个为“事件抽取比赛”时,可以标注为0。
S11,对所述第一样本集中的每个样本进行分词处理,得到第二样本集。
在本发明的至少一个实施例中,所述对所述第一样本集中的每个样本进行分词处理,得到第二样本集包括:
获取预先构建的词典,并根据所述词典构建分词模型;
利用所述分词模型对每个样本进行分词处理,得到候选词;
利用所述候选词构建有向无环图;
对于所述有向无环图中的登录词,基于动态规划算法查找所述有向无环图的最大概率路径,得到基于词频的切分组合,并利用所述切分组合对所述登录词进行切分,得到第一分词结果;
对于所述有向无环图中的未登录词,采用HMM算法(Hidden Markov Model,隐含马尔柯夫模型)及Viterbi 算法(维特比算法)对所述未登录词进行规划,得到第二分词结果;
根据所述第一分词结果及所述第二分词结果生成每个样本的分词;
整合每个样本的分词,得到所述第二样本集。
其中,所述登录词是指所述词典中可以查询到的词,所述未登录词是指没有被收录在所述词典中,但被切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。
在本实施例中,所述分词模型可以是字典树模型,能够利用树结构减少查询时间,进而提高分词效率。
S12,对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集。
其中,所述预设比例可以进行自定义配置,如15%,20%等。
S13,按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集。
在本实施例中,所述第一比例、所述第二比例及所述第三比例也可以根据实际需求进行自定义配置,本发明不限制。
例如:所述第一比例可以配置为80%,所述第二比例可以配置为10%,所述第三比例可以配置为10%。
所述第一比例、所述第二比例及所述第三比例的和为1。
例如:当有第二样本的字集中包括10个字时,其中,随机抽取8个字构建所述第一子集,在剩余的两个字中再随机抽取一个字构建所述第二子集,最后剩下的一个字用于构建所述第三子集。
S14,确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码。
在本发明的至少一个实施例中,所述确定每个第一子集中每个字的相似字包括:
启动WordNet接口;
将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典;
在所述WordNet词典中查询每个字,得到候选字集;
当接收到通过所述WordNet接口返回的所述候选字集时,从所述候选字集中随机获取任意字作为对应的每个字的相似字。
其中,所述WordNet词典中包括中文字典及英文词典。
通过上述实施方式,能够根据WordNet词典获取到相似字,由于WordNet词典具有中文属性,更加符合中文场景的需求。
进一步地,利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码。
例如:可以将“明”替换为相似字“亮”,将“我”随机替换为任意字,如“哈”,将“高”替换为掩码【mask】。
S15,利用替换后的所述第二样本集训练BERT(Bidirectional EncoderRepresentation from Transformers)模型,得到预测模型。
在本发明的至少一个实施例中,所述利用替换后的所述第二样本集训练BERT模型,得到预测模型包括:
确定所述第二样本集中每个第二样本的标注及替换前的形式;
将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型;
当所述BERT模型达到收敛时,停止训练;
将收敛时得到的模型确定为所述预测模型。
通过上述实施方式,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,因此,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景。
在本发明的至少一个实施例中,在得到所述预测模型后,所述方法还包括:
从所述第二样本集中获取真正例、真负例、假正例及假负例;
将所述真正例的样本量确定为第一样本量,将所述真负例的样本量确定为第二样本量,将所述假正例的样本量确定为第三样本量,将所述假负例的样本量确定为第四样本量;
计算所述第一样本量与所述第二样本量的和作为第一数值;
计算所述第一样本量、所述第二样本量、所述第三样本量及所述第四样本量的和作为第二数值;
计算所述第一数值与所述第二数值的商作为准确率;
当所述准确率大于或者等于配置准确率时,确定所述预测模型通过验证。
其中,所述配置准确率可以进行自定义配置,如90%。
经过实验验证,本实施例中训练得到的预测模型相较于传统方式训练的模型,准确率提升了3%。
在本实施例中,所述真正例为被正确预测为正的正样本,所述真负例为被正确预测为负的负样本,所述假正例为被错误判断为正的样本,所述假负例为被错误判断为负的样本。
通过上述实施方式,能够对训练得到的预测模型进行进一步地验证,以确定其预测的准确性。
S16,当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据。
在本发明的至少一个实施例中,所述待预测数据可以为任意两个需要被预测关联性的算法比赛的相关数据。
例如:所述待预测数据可以为算法比赛A及算法比赛B的Baseline方案、比赛赛题、举办方信息等。
S17,根据所述输出数据计算所述待预测数据中数据间的关联性。
在本发明的至少一个实施例中,所述根据所述输出数据计算所述待预测数据中数据间的关联性包括:
从所述输出数据中获取所述预测模型在输出层的CLS(classification)输出;
利用Sigmoid函数处理所述CLS输出,得到概率值;
获取预设阈值;
当所述概率值大于或者等于所述预设阈值时,确定所述待预测数据中的数据间具有关联性;或者
当所述概率值小于所述预设阈值时,确定所述待预测数据中的数据间不具有关联性。
其中,所述预设阈值可以进行自定义配置,如0.5。
通过上述实施方式,能够基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。
在本发明的至少一个实施例中,在根据所述输出数据计算所述待预测数据中数据间的关联性后,所述方法还包括:
获取上传所述待预测数据的用户;
当确定所述待预测数据中的数据间具有关联性时,将所述待预测数据传输至所述用户的终端设备;或者
当确定所述待预测数据中的数据间不具有关联性时,向所述用户的终端设备发送提示信息,所述提示信息用于提示所述待预测数据中的数据间不具有关联性。
其中,所述用户可以包括比赛选手、举办方的相关工作人员等。
通过向所述用户发送预测结果,能够辅助举办方提前发现已经重复的比赛,避免比赛雷同,影响比赛的新颖性,方便举办方从历届相似比赛中总结经验,发现最新的技术难点,同时,也方便参赛选手借鉴历届相似必带的经验。
需要说明的是,为了进一步提高数据的安全性,避免数据被恶意篡改,预测模型可存储于区块链节点中。
由以上技术方案可以看出,本发明获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集,对所述第一样本集中的每个样本进行分词处理,得到第二样本集,对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集,按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集,确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码,利用替换后的所述第二样本集训练BERT模型,得到预测模型,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,因此,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景,当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据,根据所述输出数据计算所述待预测数据中数据间的关联性,进而基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。此外,本发明还涉及区块链技术,预测模型可存储于区块链节点中。
本发明实施例还提供一种算法比赛关联性预测装置,该算法比赛关联性预测装置用于执行前述算法比赛关联性预测方法的任一实施例。具体地,请参阅图2,图2是本发明实施例提供的算法比赛关联性预测装置的示意性框图。
如图2所示,算法比赛关联性预测装置100包括:标注单元101、分词单元102、构建单元103、拆分单元104、替换单元105、训练单元106、输入单元107、计算单元108。
标注单元101获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集。
在本发明的至少一个实施例中,可以采用网络爬虫技术从各大比赛网站上爬取所述历史算法比赛数据。
例如:可以采用requests+scrapy工具从各大比赛网站上爬取所述历史算法比赛数据。
在本实施例中,所述历史算法比赛数据可以包括,但不限于以下一种或者多种数据的组合:
Baseline方案、比赛赛题、举办方信息。
其中,所述Baseline方案是指所述比赛赛题的基准方案及基准分数。
在本发明的至少一个实施例中,可以采用人工标注的方式对所述历史算法比赛数据进行标注处理,然后再将标注结果回传,进而构建所述第一样本集,本发明对标注的方式不限制。
例如:当两个算法比赛都是“阅读理解比赛”时,可以标注为1;当两个算法比赛一个为“阅读理解比赛”,另一个为“事件抽取比赛”时,可以标注为0。
分词单元102对所述第一样本集中的每个样本进行分词处理,得到第二样本集。
在本发明的至少一个实施例中,所述分词单元102对所述第一样本集中的每个样本进行分词处理,得到第二样本集包括:
获取预先构建的词典,并根据所述词典构建分词模型;
利用所述分词模型对每个样本进行分词处理,得到候选词;
利用所述候选词构建有向无环图;
对于所述有向无环图中的登录词,基于动态规划算法查找所述有向无环图的最大概率路径,得到基于词频的切分组合,并利用所述切分组合对所述登录词进行切分,得到第一分词结果;
对于所述有向无环图中的未登录词,采用HMM算法(Hidden Markov Model,隐含马尔柯夫模型)及Viterbi 算法(维特比算法)对所述未登录词进行规划,得到第二分词结果;
根据所述第一分词结果及所述第二分词结果生成每个样本的分词;
整合每个样本的分词,得到所述第二样本集。
其中,所述登录词是指所述词典中可以查询到的词,所述未登录词是指没有被收录在所述词典中,但被切分出来的词,包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等。
在本实施例中,所述分词模型可以是字典树模型,能够利用树结构减少查询时间,进而提高分词效率。
对于所述第二样本集中的每个第二样本,构建单元103从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集。
其中,所述预设比例可以进行自定义配置,如15%,20%等。
拆分单元104按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集。
在本实施例中,所述第一比例、所述第二比例及所述第三比例也可以根据实际需求进行自定义配置,本发明不限制。
例如:所述第一比例可以配置为80%,所述第二比例可以配置为10%,所述第三比例可以配置为10%。
所述第一比例、所述第二比例及所述第三比例的和为1。
例如:当有第二样本的字集中包括10个字时,其中,随机抽取8个字构建所述第一子集,在剩余的两个字中再随机抽取一个字构建所述第二子集,最后剩下的一个字用于构建所述第三子集。
替换单元105确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码。
在本发明的至少一个实施例中,所述确定每个第一子集中每个字的相似字包括:
启动WordNet接口;
将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典;
在所述WordNet词典中查询每个字,得到候选字集;
当接收到通过所述WordNet接口返回的所述候选字集时,从所述候选字集中随机获取任意字作为对应的每个字的相似字。
其中,所述WordNet词典中包括中文字典及英文词典。
通过上述实施方式,能够根据WordNet词典获取到相似字,由于WordNet词典具有中文属性,更加符合中文场景的需求。
进一步地,利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码。
例如:可以将“明”替换为相似字“亮”,将“我”随机替换为任意字,如“哈”,将“高”替换为掩码【mask】。
训练单元106利用替换后的所述第二样本集训练BERT(Bidirectional EncoderRepresentation from Transformers)模型,得到预测模型。
在本发明的至少一个实施例中,所述训练单元106利用替换后的所述第二样本集训练BERT模型,得到预测模型包括:
确定所述第二样本集中每个第二样本的标注及替换前的形式;
将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型;
当所述BERT模型达到收敛时,停止训练;
将收敛时得到的模型确定为所述预测模型。
通过上述实施方式,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,因此,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景。
在本发明的至少一个实施例中,在得到所述预测模型后,从所述第二样本集中获取真正例、真负例、假正例及假负例;
将所述真正例的样本量确定为第一样本量,将所述真负例的样本量确定为第二样本量,将所述假正例的样本量确定为第三样本量,将所述假负例的样本量确定为第四样本量;
计算所述第一样本量与所述第二样本量的和作为第一数值;
计算所述第一样本量、所述第二样本量、所述第三样本量及所述第四样本量的和作为第二数值;
计算所述第一数值与所述第二数值的商作为准确率;
当所述准确率大于或者等于配置准确率时,确定所述预测模型通过验证。
其中,所述配置准确率可以进行自定义配置,如90%。
经过实验验证,本实施例中训练得到的预测模型相较于传统方式训练的模型,准确率提升了3%。
在本实施例中,所述真正例为被正确预测为正的正样本,所述真负例为被正确预测为负的负样本,所述假正例为被错误判断为正的样本,所述假负例为被错误判断为负的样本。
通过上述实施方式,能够对训练得到的预测模型进行进一步地验证,以确定其预测的准确性。
当接收到待预测数据时,输入单元107将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据。
在本发明的至少一个实施例中,所述待预测数据可以为任意两个需要被预测关联性的算法比赛的相关数据。
例如:所述待预测数据可以为算法比赛A及算法比赛B的Baseline方案、比赛赛题、举办方信息等。
计算单元108根据所述输出数据计算所述待预测数据中数据间的关联性。
在本发明的至少一个实施例中,所述计算单元108根据所述输出数据计算所述待预测数据中数据间的关联性包括:
从所述输出数据中获取所述预测模型在输出层的CLS(classification)输出;
利用Sigmoid函数处理所述CLS输出,得到概率值;
获取预设阈值;
当所述概率值大于或者等于所述预设阈值时,确定所述待预测数据中的数据间具有关联性;或者
当所述概率值小于所述预设阈值时,确定所述待预测数据中的数据间不具有关联性。
其中,所述预设阈值可以进行自定义配置,如0.5。
通过上述实施方式,能够基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。
在本发明的至少一个实施例中,在根据所述输出数据计算所述待预测数据中数据间的关联性后,获取上传所述待预测数据的用户;
当确定所述待预测数据中的数据间具有关联性时,将所述待预测数据传输至所述用户的终端设备;或者
当确定所述待预测数据中的数据间不具有关联性时,向所述用户的终端设备发送提示信息,所述提示信息用于提示所述待预测数据中的数据间不具有关联性。
其中,所述用户可以包括比赛选手、举办方的相关工作人员等。
通过向所述用户发送预测结果,能够辅助举办方提前发现已经重复的比赛,避免比赛雷同,影响比赛的新颖性,方便举办方从历届相似比赛中总结经验,发现最新的技术难点,同时,也方便参赛选手借鉴历届相似必带的经验。
需要说明的是,为了进一步提高数据的安全性,避免数据被恶意篡改,预测模型可存储于区块链节点中。
由以上技术方案可以看出,本发明获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集,对所述第一样本集中的每个样本进行分词处理,得到第二样本集,对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集,按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集,确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码,利用替换后的所述第二样本集训练BERT模型,得到预测模型,采用屏蔽及替换的方法进行完形填空式的训练,由于屏蔽及替换的方式更加符合中文特征,替换方式多样,因此,有效提升了训练效果,使训练得到的预测模型能够适用于中文场景,当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据,根据所述输出数据计算所述待预测数据中数据间的关联性,进而基于改进的模型实现对数据间关联性的准确预测,由于模型的训练方式更加符合中文特征,因此预测的准确率也更高。此外,本发明还涉及区块链技术,预测模型可存储于区块链节点中。
上述算法比赛关联性预测装置可以实现为计算机程序的形式,该计算机程序可以在如图3所示的计算机设备上运行。
请参阅图3,图3是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
参阅图3,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行算法比赛关联性预测方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行算法比赛关联性预测方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明实施例公开的算法比赛关联性预测方法。
本领域技术人员可以理解,图3中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图3所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路 (Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的算法比赛关联性预测方法。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U 盘、移动硬盘、只读存储器 (ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种算法比赛关联性预测方法,其特征在于,包括:
获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;
对所述第一样本集中的每个样本进行分词处理,得到第二样本集;
对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;
按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;
确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;
利用替换后的所述第二样本集训练BERT模型,得到预测模型;
当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;
根据所述输出数据计算所述待预测数据中数据间的关联性。
2.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述对所述第一样本集中的每个样本进行分词处理,得到第二样本集包括:
获取预先构建的词典,并根据所述词典构建分词模型;
利用所述分词模型对每个样本进行分词处理,得到候选词;
利用所述候选词构建有向无环图;
对于所述有向无环图中的登录词,基于动态规划算法查找所述有向无环图的最大概率路径,得到基于词频的切分组合,并利用所述切分组合对所述登录词进行切分,得到第一分词结果;
对于所述有向无环图中的未登录词,采用HMM算法及Viterbi 算法对所述未登录词进行规划,得到第二分词结果;
根据所述第一分词结果及所述第二分词结果生成每个样本的分词;
整合每个样本的分词,得到所述第二样本集。
3.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述确定每个第一子集中每个字的相似字包括:
启动WordNet接口;
将每个第一子集中的每个字通过所述WordNet接口传输至WordNet词典;
在所述WordNet词典中查询每个字,得到候选字集;
当接收到通过所述WordNet接口返回的所述候选字集时,从所述候选字集中随机获取任意字作为对应的每个字的相似字。
4.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述利用替换后的所述第二样本集训练BERT模型,得到预测模型包括:
确定所述第二样本集中每个第二样本的标注及替换前的形式;
将每个第二样本的标注及替换前的形式确定为训练目标训练所述BERT模型;
当所述BERT模型达到收敛时,停止训练;
将收敛时得到的模型确定为所述预测模型。
5.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,在得到所述预测模型后,所述方法还包括:
从所述第二样本集中获取真正例、真负例、假正例及假负例;
将所述真正例的样本量确定为第一样本量,将所述真负例的样本量确定为第二样本量,将所述假正例的样本量确定为第三样本量,将所述假负例的样本量确定为第四样本量;
计算所述第一样本量与所述第二样本量的和作为第一数值;
计算所述第一样本量、所述第二样本量、所述第三样本量及所述第四样本量的和作为第二数值;
计算所述第一数值与所述第二数值的商作为准确率;
当所述准确率大于或者等于配置准确率时,确定所述预测模型通过验证。
6.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,所述根据所述输出数据计算所述待预测数据中数据间的关联性包括:
从所述输出数据中获取所述预测模型在输出层的CLS输出;
利用Sigmoid函数处理所述CLS输出,得到概率值;
获取预设阈值;
当所述概率值大于或者等于所述预设阈值时,确定所述待预测数据中的数据间具有关联性;或者
当所述概率值小于所述预设阈值时,确定所述待预测数据中的数据间不具有关联性。
7.根据权利要求1所述的算法比赛关联性预测方法,其特征在于,在根据所述输出数据计算所述待预测数据中数据间的关联性后,所述方法还包括:
获取上传所述待预测数据的用户;
当确定所述待预测数据中的数据间具有关联性时,将所述待预测数据传输至所述用户的终端设备;或者
当确定所述待预测数据中的数据间不具有关联性时,向所述用户的终端设备发送提示信息,所述提示信息用于提示所述待预测数据中的数据间不具有关联性。
8.一种算法比赛关联性预测装置,其特征在于,包括:
标注单元,用于获取历史算法比赛数据,并对所述历史算法比赛数据进行标注处理,得到第一样本集;
分词单元,用于对所述第一样本集中的每个样本进行分词处理,得到第二样本集;
构建单元,用于对于所述第二样本集中的每个第二样本,从每个第二样本中随机抽取预设比例的字构建每个第二样本的字集;
拆分单元,用于按照第一比例、第二比例及第三比例对每个第二样本的字集进行拆分,得到每个第二样本对应的具有所述第一比例样本量的第一子集、具有所述第二比例样本量的第二子集及具有所述第三比例样本量的第三子集;
替换单元,用于确定每个第一子集中每个字的相似字,并利用每个字的相似字替换每个第一子集中对应的字,将每个第二子集中的字替换为随机字,及将每个第三子集中的字替换为掩码;
训练单元,用于利用替换后的所述第二样本集训练BERT模型,得到预测模型;
输入单元,用于当接收到待预测数据时,将所述待预测数据输入至所述预测模型,并获取所述预测模型的输出数据;
计算单元,用于根据所述输出数据计算所述待预测数据中数据间的关联性。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的算法比赛关联性预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的算法比赛关联性预测方法。
CN202111088467.2A 2021-09-16 2021-09-16 算法比赛关联性预测方法、装置、设备及介质 Active CN113536789B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111088467.2A CN113536789B (zh) 2021-09-16 2021-09-16 算法比赛关联性预测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111088467.2A CN113536789B (zh) 2021-09-16 2021-09-16 算法比赛关联性预测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113536789A true CN113536789A (zh) 2021-10-22
CN113536789B CN113536789B (zh) 2021-12-24

Family

ID=78092782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111088467.2A Active CN113536789B (zh) 2021-09-16 2021-09-16 算法比赛关联性预测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113536789B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
CN112016304A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112115237A (zh) * 2020-10-09 2020-12-22 湖北中烟工业有限责任公司 烟草科技文献数据推荐模型的构建方法及装置
US11016997B1 (en) * 2019-12-19 2021-05-25 Adobe Inc. Generating query results based on domain-specific dynamic word embeddings
CN113220836A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 序列标注模型的训练方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287494A (zh) * 2019-07-01 2019-09-27 济南浪潮高新科技投资发展有限公司 一种基于深度学习bert算法的短文本相似匹配的方法
US11016997B1 (en) * 2019-12-19 2021-05-25 Adobe Inc. Generating query results based on domain-specific dynamic word embeddings
CN112016304A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112016310A (zh) * 2020-09-03 2020-12-01 平安科技(深圳)有限公司 文本纠错方法、系统、设备及可读存储介质
CN112115237A (zh) * 2020-10-09 2020-12-22 湖北中烟工业有限责任公司 烟草科技文献数据推荐模型的构建方法及装置
CN113220836A (zh) * 2021-05-08 2021-08-06 北京百度网讯科技有限公司 序列标注模型的训练方法、装置、电子设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIMING CUI ET AL.: "Revisiting Pre-trained Models for Chinese Natural Language Processing", 《ARXIV》 *

Also Published As

Publication number Publication date
CN113536789B (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN112242187B (zh) 基于知识图谱表征学习的医疗方案推荐系统及方法
CN109918560B (zh) 一种基于搜索引擎的问答方法和装置
CN110245259B (zh) 基于知识图谱的视频打标签方法及装置、计算机可读介质
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
CN108549656B (zh) 语句解析方法、装置、计算机设备及可读介质
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN112528637A (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN113707300A (zh) 基于人工智能的搜索意图识别方法、装置、设备及介质
CN110175851A (zh) 一种作弊行为检测方法及装置
CN113656547B (zh) 文本匹配方法、装置、设备及存储介质
CN113590810B (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN113821592B (zh) 一种数据处理方法、装置、设备以及存储介质
CN113626704A (zh) 基于word2vec模型的推荐信息方法、装置及设备
CN111753089A (zh) 话题聚类方法、装置、电子设备及存储介质
CN113706322A (zh) 基于数据分析的服务分发方法、装置、设备及存储介质
CN115438674A (zh) 实体数据处理、实体链接方法、装置和计算机设备
CN113704393A (zh) 关键词提取方法、装置、设备及介质
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN113961813A (zh) 基于人工智能的信息推荐方法、装置、设备及存储介质
CN107688594B (zh) 基于社交信息的风险事件的识别系统及方法
CN113254671A (zh) 基于query分析的图谱优化方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant