CN113407716B - 一种基于众包的人类行为文本数据集的构造以及处理方法 - Google Patents

一种基于众包的人类行为文本数据集的构造以及处理方法 Download PDF

Info

Publication number
CN113407716B
CN113407716B CN202110529477.9A CN202110529477A CN113407716B CN 113407716 B CN113407716 B CN 113407716B CN 202110529477 A CN202110529477 A CN 202110529477A CN 113407716 B CN113407716 B CN 113407716B
Authority
CN
China
Prior art keywords
text
data set
behaviors
text data
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110529477.9A
Other languages
English (en)
Other versions
CN113407716A (zh
Inventor
古天龙
高慧
李龙
包旭光
李云辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan University
Guilin University of Electronic Technology
Original Assignee
Jinan University
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan University, Guilin University of Electronic Technology filed Critical Jinan University
Priority to CN202110529477.9A priority Critical patent/CN113407716B/zh
Publication of CN113407716A publication Critical patent/CN113407716A/zh
Application granted granted Critical
Publication of CN113407716B publication Critical patent/CN113407716B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于众包的人类行为文本数据集的构造以及处理方法,首先,确定需要收集的主题对象,依据具体的要求生成任务并发布于众包平台,获得设定主题下所有可能发生的人类示例的文本数据集;对于同一个行为或事件的文本经过不同人的撰写会表现在多个句子,因此需要把描述同一事件的不同句子聚类在一起,因此,对于获取的数据集采用聚类的方式将本属于同一行为的不同文本表现聚为一类;采用关联分析技术挖掘出行为之间存在的先后关系结构;采用互信息技术学习出行为之间存在的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,即表明在某种情况下会发生什么事件,并限制其发生的方式,提高对人类行为的分析的准确性。

Description

一种基于众包的人类行为文本数据集的构造以及处理方法
技术领域
本发明涉及移动互联网应用技术领域,尤其涉及一种基于众包的人类行为文本数据集的构造以及处理方法。
背景技术
随着人工智能的高速发展,智能看护机器人、自动驾驶汽车等形式多样的智能体在人类生活中也扮演着越来越重要的角色。但是,随着智能化的普及,对于人类行为的分析和判断决策过程也越发重要。但是现有的伦理智能体的设计,基于专家示例,逆强化学习等通过人类示范学习人类价值观,但所需数据集的收集具有以下缺点:代价昂贵、周期长,存在偏见等问题,导致数据集不够全面,因此,对于人类行为的分析不是很准确。
发明内容
本发明的目的在于提供一种基于众包的人类行为文本数据集的构造以及处理方法,提高对人类行为的分析的准确性。
为实现上述目的,本发明提供了一种基于众包的人类行为文本数据集的构造以及处理方法,包括以下步骤:
根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集;
采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类;
采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图;
采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图。
其中,采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类,包括:
利用Python对所述文本数据集进行数据预处理,并对得到的各单词向量进行拼接,得到句子向量;
使用Sklearn工具的封装的接口对所述句子向量进行相似度计算以及K-means算法聚类。
其中,采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图,包括:
句子蔟ID对聚类后的所述文本数据集进行序列化,并遍历得到的文本序列数据集;
根据得到的后继关系集中的任意两节点同时出现的数据信息,计算出对应的置信度,并删除置信度小于阈值的对应的先后关系,生成对应的先后关系结构图。
其中,采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图之后,所述方法还包括:
将所述先后关系结构图中多路径中直连的先后关系删除。
其中,采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,包括:
基于文本序列事件是否发生的标记值获取对应的标记矩阵,同时计算出互斥关系得分;
根据所学习到的行为间的关系,构造情节图。
其中,基于文本序列事件是否发生的标记值获取对应的标记矩阵,同时计算出互斥关系得分,包括:
判断所述文本序列事件是否发生,并用0或1进行标记区分,直至文本序列数据集中的所有事件标记完成,得到对应的标记矩阵;
计算单事件和双事件同时发生的概率,并基于所述概率,计算出事件间的互斥关系得分。
本发明的一种基于众包的人类行为文本数据集的构造以及处理方法,首先,确定需要收集的主题对象,依据具体的要求生成任务并发布于众包平台,获得设定主题下所有可能发生的人类示例的文本数据集;对于同一个行为或事件的文本经过不同人的撰写会表现在多个句子,因此需要把描述同一事件的不同句子聚类在一起,对于获取的数据集采用聚类的方式将本属于同一行为的不同文本表现聚为一类;采用关联分析技术挖掘出行为之间存在的先后关系结构;采用互信息技术学习出行为之间存在的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,即表明在某种情况下会发生什么事件,并限制其发生的方式,提高对人类行为的分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于众包的人类行为文本数据集的构造以及处理方法的步骤示意图。
图2是本发明提供的一种基于众包的人类行为文本数据集的构造以及处理方法的流程示意图。
图3是本发明提供的环状结构图。
图4是本发明提供的先后关系结构图。
图5是本发明提供的基于众包获取数据集的示意图。
图6是本发明提供的人类行为聚类的示意图。
图7是本发明提供的人类行为的先后关系的学习示意图。
图8是本发明提供的人类行为的互斥关系的学习示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1和图2,本发明提供一种基于众包的人类行为文本数据集的构造以及处理方法,包括以下步骤:
S101、根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集。
具体的,如图5所示,确定一个需要收集的主题,并明确提出该任务的具体要求,并在任务设计中设置陷阱问题保证一定程度上的数据质量,将该任务发布在众包平台;
筛选众包平台上的工作者提交的数据,并接受符合本任务要求的数据,如有需要,可支付一定酬金。
S102、采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类。
具体的,如图6所示,具体包括:
由于收集原始的数据集可能存在缺失、重复等质量问题,需要对数据集进行数据预处理,包括分词,去停用词,词性还原等,使用Python在文本数据处理经常用到的一个库Natural Language Toolkit(NLTK)进行数据预处理。
使用Google基于GoogleNews超大语料库利用Word2Vec预先训练好的公开单词向量模型,每个词向量300维。利用Python中的gensim工具库加载词向量模型,然后对句子中的各单词向量进行拼接得到句子向量。
使用Sklearn工具的封装的接口对上一步得到的文本向量进行相似度计算以及K-means算法聚类;
利用轮廓系数来确定聚类类别的数量;
Figure BDA0003067477340000041
其中,a表示样本点与同一簇中所有其他点的平均距离,b表示样本点与下一个最近簇中所有点的平均距离。
依据人工聚类评估并进行人工二次聚类,从中挑出与本类别内与其他句子最不相似的句子,从本类别内拿出。并对每一个类别总结一句话作为本类别的原始事件即情节点(人类行为)。
S103、采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图。
具体的,如图7所示,具体包括:
根据句子蔟ID对文本集进行序列化。根据聚类结果可以得到n个蔟{c1,c2,…,cn},而每个簇内包含多个句子c={s1,s2,…,sm},从中选取某一个句子作为簇头sm,并对簇头进行唯一标识ei作为情节点。即簇{c1,c2,…,cn}中每一元素对应情节点{e1,e2,…,en}中相应的元素。接着将文本数据集中的句子按照聚类后的蔟ID进行编码,得到text={[e1,e2,…,ei],[e1,e2,…,ej],…,[e1,e2,…,et]}的文本序列数据集。
遍历文本序列数据集,获得后继关系集。对文本序列数据集进行遍历,并根据情节点的先后关系生成后继关系集。例如文本序列[e1,e3,e6,e8]和[e1,e4,e6,e7,e9],可以得到e1:[e3,e4]、e3:[e6]、e4:[e6]、e6:[e7,e8]、e7:[e9]等后继关系集合。
遍历后继关系集,获得任意两节点同时出现的数据信息,并计算置信度。如求取ei与ej两个节点的数据信息,包括有:Num(ei→ej),ei发生在ej之前的次数;Num(ej→ei),ej发生在ei之前的次数。通过此信息根据以下公式求取置信度,并构造置信度矩阵。
Figure BDA0003067477340000051
Figure BDA0003067477340000052
Figure BDA0003067477340000053
这里的ei→ej指在同一个文本中ei先发生而ej后发生,|Sample|为所有文本数量。
遍历所有环状结构,并删除置信度最小的先后关系。在构造情节图的过程中,出现了很多环状结构。如图3所示:情节点a、b、c、d构成了一个环,然而情节图本质是种有向无环图,按照情节发展向后推进。在生成过程中需要禁止自循环,通过设置置信度大于0.5消除before(ei,ej)与before(ej,ei)同时存在的可能性,进而消除了两个节点间的循环,对于三个节点或者更多节点间的循环,本文通过消除关系中置信度最低的那个达到无环图的目的。分以下两步解决:①遍历情节图,利用深度优先的递归方式遍历出图中所有环状结构;②删除环状结构中的置信度最小的边。
删除多路径中的先后关系,在众包文本数据时,并不是每个工作者撰写的文本的情节点都很丰富,有的文本中会省略部分情节点。故存在如下图所示的情况。图4中的a到b,即存在直接路径[a,b],又存在另一条多节点路径[a,c,d,b],故将直连的先后关系before(a,b)删除。
S104、采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图。
具体的,如图8所示,具体包括:
标注各文本序列事件Ei是否发生,其中发生的事件标记1,否则标记为0。例如:文本序列[e1,e3,e6,e8],由此得到标记后的列表[0,1,0,1,0,0,1,0,1]。遍历所有文本序列并获取各事件是否发生的标记矩阵。
计算单事件与双事件同时发生的概率。假如总共有n条文本,其中事件Ei发生的次数为k,则p(Ei=1)的概率为k/n。
计算互斥关系得分。根据如下公式计算,如果求得事件间的互信息值大于0,则事件间具有互斥关系。
Figure BDA0003067477340000061
Figure BDA0003067477340000062
Ei∈{0,1}表明事件Ei是否出现在一个文本中,如果出现在该文本中,Ei取值为1,反之取值为0。若a取值为0,则
Figure BDA0003067477340000063
取值为1。
根据所学习到的行为间的关系,构造情节图。
本发明的有益效果:
1、本发明利用众包技术收集了借助自然语言表述的人类行为数据,解决了专家示例、模仿学习等所需数据集构建时普遍存在的费用高昂、耗时、存在偏见等缺点。
2、且鉴于众包在数据收集方面的强大优势,随着越来越多的人类行为数据被收集,涉及伦理问题的决策会更加清晰和一致。
本发明的一种基于众包的人类行为文本数据集的构造以及处理方法,确定需要收集的主题对象,依据具体的要求设计任务并发布于众包平台,获得某一特定主题下所有可能发生的人类示例的文本数据集;对于同一个行为或事件的文本经过不同人的撰写会表现在多个句子,因此需要把描述同一事件的不同句子聚类在一起,对于获取的数据集采用聚类的方式将本属于同一行为的不同文本表现聚为一类;采用关联分析技术挖掘出行为之间存在的先后关系结构;采用互信息技术学习出行为之间存在的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,即表明在某种情况下会发生什么事件,并限制其发生的方式。本发明利用众包技术收集了借助自然语言表述的人类行为数据,能够利用众包的优势构建体现人类共同价值观的行为数据集,用以训练智能体获得人类价值观,使之遵守人类伦理道德规范。利用众包技术收集了借助自然语言表述的人类行为数据,解决了专家示例、模仿学习等所需数据集构建时普遍存在的费用高昂、耗时、存在偏见等缺点;进一步通过文本聚类、关联分析等技术生成情节图,用以定义智能体训练时的基本行为空间,约束行为的发生顺序。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (2)

1.一种基于众包的人类行为文本数据集的构造以及处理方法,其特征在于,包括以下步骤:
根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集;
采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类;
采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图,包括:
根据句子蔟ID对文本集进行序列化,根据聚类结果可以得到n个蔟{c1,c2,…,cn},而每个簇内包含多个句子c={s1,s2,…,sm},从中选取某一个句子作为簇头sm,并对簇头进行唯一标识ei作为情节点;即簇{c1,c2,…,cn}中每一元素对应情节点{e1,e2,…,en}中相应的元素;接着将文本数据集中的句子按照聚类后的蔟ID进行编码,得到text={[e1,e2,…,ei],[e1,e2,…,ej],…,[e1,e2,…,et]}的文本序列数据集;
遍历文本序列数据集,获得后继关系集,对文本序列数据集进行遍历,并根据情节点的先后关系生成后继关系集;
遍历后继关系集,获得任意两节点同时出现的数据信息,并计算置信度,遍历所有环状结构,并删除置信度最小的先后关系;
采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,包括:
基于文本序列事件是否发生的标记值获取对应的标记矩阵,判断所述文本序列时间是否发生,并用0或1进行标记区分,直至文本序列数据集中的所有事件标记完成,得到对应的标记矩阵;计算单事件与双事件同时发生的概率;计算互斥关系得分,根据所学到的行为间的关系,构造情节图。
2.如权利要求1所述的基于众包的人类行为文本数据集的构造以及处理方法,其特征在于,采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类,包括:
利用Python对所述文本数据集进行数据预处理,并对得到的各单词向量进行拼接,得到句子向量;
使用Sklearn工具的封装的接口对所述句子向量进行相似度计算以及K-means算法聚类。
CN202110529477.9A 2021-05-14 2021-05-14 一种基于众包的人类行为文本数据集的构造以及处理方法 Active CN113407716B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110529477.9A CN113407716B (zh) 2021-05-14 2021-05-14 一种基于众包的人类行为文本数据集的构造以及处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110529477.9A CN113407716B (zh) 2021-05-14 2021-05-14 一种基于众包的人类行为文本数据集的构造以及处理方法

Publications (2)

Publication Number Publication Date
CN113407716A CN113407716A (zh) 2021-09-17
CN113407716B true CN113407716B (zh) 2022-08-19

Family

ID=77678650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110529477.9A Active CN113407716B (zh) 2021-05-14 2021-05-14 一种基于众包的人类行为文本数据集的构造以及处理方法

Country Status (1)

Country Link
CN (1) CN113407716B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703108B (zh) * 2023-06-20 2024-03-08 暨南大学 一种基于top-k结构洞的众包问题选择方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495985A (zh) * 2011-12-13 2012-06-13 桂林电子科技大学 一种基于动态描述逻辑的角色访问控制方法
CN106599686A (zh) * 2016-10-12 2017-04-26 四川大学 一种基于tlsh特征表示的恶意软件聚类方法
CN107391706A (zh) * 2017-07-28 2017-11-24 湖北文理学院 一种基于移动互联网的城市旅游问答系统
CN109582796A (zh) * 2018-12-05 2019-04-05 深圳前海微众银行股份有限公司 企业舆情事件网络的生成方法、装置、设备及存储介质
WO2020121665A1 (ja) * 2018-12-14 2020-06-18 株式会社Nttドコモ 情報処理装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617290B (zh) * 2013-12-13 2017-02-15 江苏名通信息科技有限公司 中文机器阅读系统
CN104408130B (zh) * 2014-11-26 2018-04-27 小米科技有限责任公司 图片整理的方法及装置
CN110008031B (zh) * 2018-01-05 2022-04-15 北京金山云网络技术有限公司 设备操作方法、集群系统、电子设备及可读取存储介质
CN108717601B (zh) * 2018-05-08 2022-05-06 西安交通大学 一种面向企业难题的多创新方法集成与融合方法
CN108897857B (zh) * 2018-06-28 2021-08-27 东华大学 面向领域的中文文本主题句生成方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495985A (zh) * 2011-12-13 2012-06-13 桂林电子科技大学 一种基于动态描述逻辑的角色访问控制方法
CN106599686A (zh) * 2016-10-12 2017-04-26 四川大学 一种基于tlsh特征表示的恶意软件聚类方法
CN107391706A (zh) * 2017-07-28 2017-11-24 湖北文理学院 一种基于移动互联网的城市旅游问答系统
CN109582796A (zh) * 2018-12-05 2019-04-05 深圳前海微众银行股份有限公司 企业舆情事件网络的生成方法、装置、设备及存储介质
WO2020121665A1 (ja) * 2018-12-14 2020-06-18 株式会社Nttドコモ 情報処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
State of Art Techniques for Social Influence Analysis: A Systematic Literature Review;Sadia Majeed et al.;《2018 International Conference on Frontiers of Information Technology》;20190117;1-5 *
众包中公众参与行为影响因素实证分析;和莎莎;《商业经济研究》;20160210;1-3 *

Also Published As

Publication number Publication date
CN113407716A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110309331B (zh) 一种基于自监督的跨模态深度哈希检索方法
Dong et al. Towards interpretable deep neural networks by leveraging adversarial examples
CN112380325B (zh) 基于联合知识嵌入模型和事实记忆网络的知识图谱问答系统
CN113705597B (zh) 一种图像处理方法、装置、计算机设备以及可读存储介质
CN112100380B (zh) 一种基于知识图谱的生成式零样本预测方法
CN107506414A (zh) 一种基于长短期记忆网络的代码推荐方法
CN113626613B (zh) 基于融入知识图谱子图信息及实体信息的实体链接方法
CN113191148B (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN107451230A (zh) 一种问答方法以及问答系统
CN111611218A (zh) 一种基于深度学习的分布式异常日志自动识别方法
CN110188189B (zh) 一种基于知识的自适应事件索引认知模型提取文档摘要的方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
Benedikt et al. Human-in-the-loop AI in government: A case study
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN113159292A (zh) 一种基于神经网络最小化熵的因果网络发现方法及系统
CN113407716B (zh) 一种基于众包的人类行为文本数据集的构造以及处理方法
CN113254675A (zh) 基于自适应少样本关系抽取的知识图谱构建方法
CN114357022B (zh) 一种基于事件关系发现的媒体内容关联挖掘方法
CN110867225A (zh) 字符级临床概念提取命名实体识别方法及系统
Lonij et al. Open-world visual recognition using knowledge graphs
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113705207A (zh) 语法错误识别方法及装置
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN115391523A (zh) 风电场多源异构数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant