CN113407716B - 一种基于众包的人类行为文本数据集的构造以及处理方法 - Google Patents
一种基于众包的人类行为文本数据集的构造以及处理方法 Download PDFInfo
- Publication number
- CN113407716B CN113407716B CN202110529477.9A CN202110529477A CN113407716B CN 113407716 B CN113407716 B CN 113407716B CN 202110529477 A CN202110529477 A CN 202110529477A CN 113407716 B CN113407716 B CN 113407716B
- Authority
- CN
- China
- Prior art keywords
- text
- data set
- behaviors
- human
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 7
- 238000003672 processing method Methods 0.000 title claims abstract description 4
- 230000006399 behavior Effects 0.000 claims abstract description 62
- 238000005516 engineering process Methods 0.000 claims abstract description 18
- 230000007717 exclusion Effects 0.000 claims abstract description 7
- 238000012098 association analyses Methods 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 7
- 241000854291 Dianthus carthusianorum Species 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims 1
- 230000001667 episodic effect Effects 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 3
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于众包的人类行为文本数据集的构造以及处理方法,首先,确定需要收集的主题对象,依据具体的要求生成任务并发布于众包平台,获得设定主题下所有可能发生的人类示例的文本数据集;对于同一个行为或事件的文本经过不同人的撰写会表现在多个句子,因此需要把描述同一事件的不同句子聚类在一起,因此,对于获取的数据集采用聚类的方式将本属于同一行为的不同文本表现聚为一类;采用关联分析技术挖掘出行为之间存在的先后关系结构;采用互信息技术学习出行为之间存在的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,即表明在某种情况下会发生什么事件,并限制其发生的方式,提高对人类行为的分析的准确性。
Description
技术领域
本发明涉及移动互联网应用技术领域,尤其涉及一种基于众包的人类行为文本数据集的构造以及处理方法。
背景技术
随着人工智能的高速发展,智能看护机器人、自动驾驶汽车等形式多样的智能体在人类生活中也扮演着越来越重要的角色。但是,随着智能化的普及,对于人类行为的分析和判断决策过程也越发重要。但是现有的伦理智能体的设计,基于专家示例,逆强化学习等通过人类示范学习人类价值观,但所需数据集的收集具有以下缺点:代价昂贵、周期长,存在偏见等问题,导致数据集不够全面,因此,对于人类行为的分析不是很准确。
发明内容
本发明的目的在于提供一种基于众包的人类行为文本数据集的构造以及处理方法,提高对人类行为的分析的准确性。
为实现上述目的,本发明提供了一种基于众包的人类行为文本数据集的构造以及处理方法,包括以下步骤:
根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集;
采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类;
采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图;
采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图。
其中,采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类,包括:
利用Python对所述文本数据集进行数据预处理,并对得到的各单词向量进行拼接,得到句子向量;
使用Sklearn工具的封装的接口对所述句子向量进行相似度计算以及K-means算法聚类。
其中,采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图,包括:
句子蔟ID对聚类后的所述文本数据集进行序列化,并遍历得到的文本序列数据集;
根据得到的后继关系集中的任意两节点同时出现的数据信息,计算出对应的置信度,并删除置信度小于阈值的对应的先后关系,生成对应的先后关系结构图。
其中,采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图之后,所述方法还包括:
将所述先后关系结构图中多路径中直连的先后关系删除。
其中,采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,包括:
基于文本序列事件是否发生的标记值获取对应的标记矩阵,同时计算出互斥关系得分;
根据所学习到的行为间的关系,构造情节图。
其中,基于文本序列事件是否发生的标记值获取对应的标记矩阵,同时计算出互斥关系得分,包括:
判断所述文本序列事件是否发生,并用0或1进行标记区分,直至文本序列数据集中的所有事件标记完成,得到对应的标记矩阵;
计算单事件和双事件同时发生的概率,并基于所述概率,计算出事件间的互斥关系得分。
本发明的一种基于众包的人类行为文本数据集的构造以及处理方法,首先,确定需要收集的主题对象,依据具体的要求生成任务并发布于众包平台,获得设定主题下所有可能发生的人类示例的文本数据集;对于同一个行为或事件的文本经过不同人的撰写会表现在多个句子,因此需要把描述同一事件的不同句子聚类在一起,对于获取的数据集采用聚类的方式将本属于同一行为的不同文本表现聚为一类;采用关联分析技术挖掘出行为之间存在的先后关系结构;采用互信息技术学习出行为之间存在的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,即表明在某种情况下会发生什么事件,并限制其发生的方式,提高对人类行为的分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于众包的人类行为文本数据集的构造以及处理方法的步骤示意图。
图2是本发明提供的一种基于众包的人类行为文本数据集的构造以及处理方法的流程示意图。
图3是本发明提供的环状结构图。
图4是本发明提供的先后关系结构图。
图5是本发明提供的基于众包获取数据集的示意图。
图6是本发明提供的人类行为聚类的示意图。
图7是本发明提供的人类行为的先后关系的学习示意图。
图8是本发明提供的人类行为的互斥关系的学习示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1和图2,本发明提供一种基于众包的人类行为文本数据集的构造以及处理方法,包括以下步骤:
S101、根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集。
具体的,如图5所示,确定一个需要收集的主题,并明确提出该任务的具体要求,并在任务设计中设置陷阱问题保证一定程度上的数据质量,将该任务发布在众包平台;
筛选众包平台上的工作者提交的数据,并接受符合本任务要求的数据,如有需要,可支付一定酬金。
S102、采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类。
具体的,如图6所示,具体包括:
由于收集原始的数据集可能存在缺失、重复等质量问题,需要对数据集进行数据预处理,包括分词,去停用词,词性还原等,使用Python在文本数据处理经常用到的一个库Natural Language Toolkit(NLTK)进行数据预处理。
使用Google基于GoogleNews超大语料库利用Word2Vec预先训练好的公开单词向量模型,每个词向量300维。利用Python中的gensim工具库加载词向量模型,然后对句子中的各单词向量进行拼接得到句子向量。
使用Sklearn工具的封装的接口对上一步得到的文本向量进行相似度计算以及K-means算法聚类;
利用轮廓系数来确定聚类类别的数量;
其中,a表示样本点与同一簇中所有其他点的平均距离,b表示样本点与下一个最近簇中所有点的平均距离。
依据人工聚类评估并进行人工二次聚类,从中挑出与本类别内与其他句子最不相似的句子,从本类别内拿出。并对每一个类别总结一句话作为本类别的原始事件即情节点(人类行为)。
S103、采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图。
具体的,如图7所示,具体包括:
根据句子蔟ID对文本集进行序列化。根据聚类结果可以得到n个蔟{c1,c2,…,cn},而每个簇内包含多个句子c={s1,s2,…,sm},从中选取某一个句子作为簇头sm,并对簇头进行唯一标识ei作为情节点。即簇{c1,c2,…,cn}中每一元素对应情节点{e1,e2,…,en}中相应的元素。接着将文本数据集中的句子按照聚类后的蔟ID进行编码,得到text={[e1,e2,…,ei],[e1,e2,…,ej],…,[e1,e2,…,et]}的文本序列数据集。
遍历文本序列数据集,获得后继关系集。对文本序列数据集进行遍历,并根据情节点的先后关系生成后继关系集。例如文本序列[e1,e3,e6,e8]和[e1,e4,e6,e7,e9],可以得到e1:[e3,e4]、e3:[e6]、e4:[e6]、e6:[e7,e8]、e7:[e9]等后继关系集合。
遍历后继关系集,获得任意两节点同时出现的数据信息,并计算置信度。如求取ei与ej两个节点的数据信息,包括有:Num(ei→ej),ei发生在ej之前的次数;Num(ej→ei),ej发生在ei之前的次数。通过此信息根据以下公式求取置信度,并构造置信度矩阵。
这里的ei→ej指在同一个文本中ei先发生而ej后发生,|Sample|为所有文本数量。
遍历所有环状结构,并删除置信度最小的先后关系。在构造情节图的过程中,出现了很多环状结构。如图3所示:情节点a、b、c、d构成了一个环,然而情节图本质是种有向无环图,按照情节发展向后推进。在生成过程中需要禁止自循环,通过设置置信度大于0.5消除before(ei,ej)与before(ej,ei)同时存在的可能性,进而消除了两个节点间的循环,对于三个节点或者更多节点间的循环,本文通过消除关系中置信度最低的那个达到无环图的目的。分以下两步解决:①遍历情节图,利用深度优先的递归方式遍历出图中所有环状结构;②删除环状结构中的置信度最小的边。
删除多路径中的先后关系,在众包文本数据时,并不是每个工作者撰写的文本的情节点都很丰富,有的文本中会省略部分情节点。故存在如下图所示的情况。图4中的a到b,即存在直接路径[a,b],又存在另一条多节点路径[a,c,d,b],故将直连的先后关系before(a,b)删除。
S104、采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图。
具体的,如图8所示,具体包括:
标注各文本序列事件Ei是否发生,其中发生的事件标记1,否则标记为0。例如:文本序列[e1,e3,e6,e8],由此得到标记后的列表[0,1,0,1,0,0,1,0,1]。遍历所有文本序列并获取各事件是否发生的标记矩阵。
计算单事件与双事件同时发生的概率。假如总共有n条文本,其中事件Ei发生的次数为k,则p(Ei=1)的概率为k/n。
计算互斥关系得分。根据如下公式计算,如果求得事件间的互信息值大于0,则事件间具有互斥关系。
根据所学习到的行为间的关系,构造情节图。
本发明的有益效果:
1、本发明利用众包技术收集了借助自然语言表述的人类行为数据,解决了专家示例、模仿学习等所需数据集构建时普遍存在的费用高昂、耗时、存在偏见等缺点。
2、且鉴于众包在数据收集方面的强大优势,随着越来越多的人类行为数据被收集,涉及伦理问题的决策会更加清晰和一致。
本发明的一种基于众包的人类行为文本数据集的构造以及处理方法,确定需要收集的主题对象,依据具体的要求设计任务并发布于众包平台,获得某一特定主题下所有可能发生的人类示例的文本数据集;对于同一个行为或事件的文本经过不同人的撰写会表现在多个句子,因此需要把描述同一事件的不同句子聚类在一起,对于获取的数据集采用聚类的方式将本属于同一行为的不同文本表现聚为一类;采用关联分析技术挖掘出行为之间存在的先后关系结构;采用互信息技术学习出行为之间存在的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,即表明在某种情况下会发生什么事件,并限制其发生的方式。本发明利用众包技术收集了借助自然语言表述的人类行为数据,能够利用众包的优势构建体现人类共同价值观的行为数据集,用以训练智能体获得人类价值观,使之遵守人类伦理道德规范。利用众包技术收集了借助自然语言表述的人类行为数据,解决了专家示例、模仿学习等所需数据集构建时普遍存在的费用高昂、耗时、存在偏见等缺点;进一步通过文本聚类、关联分析等技术生成情节图,用以定义智能体训练时的基本行为空间,约束行为的发生顺序。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (2)
1.一种基于众包的人类行为文本数据集的构造以及处理方法,其特征在于,包括以下步骤:
根据对应的主题对象和要求生成任务并发布于众包平台,同时获取设定主题下所有的文本数据集;
采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类;
采用关联分析技术对不同行为之间进行分析,生成对应的先后关系结构图,包括:
根据句子蔟ID对文本集进行序列化,根据聚类结果可以得到n个蔟{c1,c2,…,cn},而每个簇内包含多个句子c={s1,s2,…,sm},从中选取某一个句子作为簇头sm,并对簇头进行唯一标识ei作为情节点;即簇{c1,c2,…,cn}中每一元素对应情节点{e1,e2,…,en}中相应的元素;接着将文本数据集中的句子按照聚类后的蔟ID进行编码,得到text={[e1,e2,…,ei],[e1,e2,…,ej],…,[e1,e2,…,et]}的文本序列数据集;
遍历文本序列数据集,获得后继关系集,对文本序列数据集进行遍历,并根据情节点的先后关系生成后继关系集;
遍历后继关系集,获得任意两节点同时出现的数据信息,并计算置信度,遍历所有环状结构,并删除置信度最小的先后关系;
采用互信息技术获取行为之间的互斥关系结构,并将人类行为存在的各种关系构造成一个情节图,包括:
基于文本序列事件是否发生的标记值获取对应的标记矩阵,判断所述文本序列时间是否发生,并用0或1进行标记区分,直至文本序列数据集中的所有事件标记完成,得到对应的标记矩阵;计算单事件与双事件同时发生的概率;计算互斥关系得分,根据所学到的行为间的关系,构造情节图。
2.如权利要求1所述的基于众包的人类行为文本数据集的构造以及处理方法,其特征在于,采用聚类的方式对所述文本数据集中的同一行为的不同文本表现进行聚类,包括:
利用Python对所述文本数据集进行数据预处理,并对得到的各单词向量进行拼接,得到句子向量;
使用Sklearn工具的封装的接口对所述句子向量进行相似度计算以及K-means算法聚类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529477.9A CN113407716B (zh) | 2021-05-14 | 2021-05-14 | 一种基于众包的人类行为文本数据集的构造以及处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110529477.9A CN113407716B (zh) | 2021-05-14 | 2021-05-14 | 一种基于众包的人类行为文本数据集的构造以及处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113407716A CN113407716A (zh) | 2021-09-17 |
CN113407716B true CN113407716B (zh) | 2022-08-19 |
Family
ID=77678650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110529477.9A Active CN113407716B (zh) | 2021-05-14 | 2021-05-14 | 一种基于众包的人类行为文本数据集的构造以及处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113407716B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116703108B (zh) * | 2023-06-20 | 2024-03-08 | 暨南大学 | 一种基于top-k结构洞的众包问题选择方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495985A (zh) * | 2011-12-13 | 2012-06-13 | 桂林电子科技大学 | 一种基于动态描述逻辑的角色访问控制方法 |
CN106599686A (zh) * | 2016-10-12 | 2017-04-26 | 四川大学 | 一种基于tlsh特征表示的恶意软件聚类方法 |
CN107391706A (zh) * | 2017-07-28 | 2017-11-24 | 湖北文理学院 | 一种基于移动互联网的城市旅游问答系统 |
CN109582796A (zh) * | 2018-12-05 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 企业舆情事件网络的生成方法、装置、设备及存储介质 |
WO2020121665A1 (ja) * | 2018-12-14 | 2020-06-18 | 株式会社Nttドコモ | 情報処理装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617290B (zh) * | 2013-12-13 | 2017-02-15 | 江苏名通信息科技有限公司 | 中文机器阅读系统 |
CN104408130B (zh) * | 2014-11-26 | 2018-04-27 | 小米科技有限责任公司 | 图片整理的方法及装置 |
CN110008031B (zh) * | 2018-01-05 | 2022-04-15 | 北京金山云网络技术有限公司 | 设备操作方法、集群系统、电子设备及可读取存储介质 |
CN108717601B (zh) * | 2018-05-08 | 2022-05-06 | 西安交通大学 | 一种面向企业难题的多创新方法集成与融合方法 |
CN108897857B (zh) * | 2018-06-28 | 2021-08-27 | 东华大学 | 面向领域的中文文本主题句生成方法 |
-
2021
- 2021-05-14 CN CN202110529477.9A patent/CN113407716B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102495985A (zh) * | 2011-12-13 | 2012-06-13 | 桂林电子科技大学 | 一种基于动态描述逻辑的角色访问控制方法 |
CN106599686A (zh) * | 2016-10-12 | 2017-04-26 | 四川大学 | 一种基于tlsh特征表示的恶意软件聚类方法 |
CN107391706A (zh) * | 2017-07-28 | 2017-11-24 | 湖北文理学院 | 一种基于移动互联网的城市旅游问答系统 |
CN109582796A (zh) * | 2018-12-05 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 企业舆情事件网络的生成方法、装置、设备及存储介质 |
WO2020121665A1 (ja) * | 2018-12-14 | 2020-06-18 | 株式会社Nttドコモ | 情報処理装置 |
Non-Patent Citations (2)
Title |
---|
State of Art Techniques for Social Influence Analysis: A Systematic Literature Review;Sadia Majeed et al.;《2018 International Conference on Frontiers of Information Technology》;20190117;1-5 * |
众包中公众参与行为影响因素实证分析;和莎莎;《商业经济研究》;20160210;1-3 * |
Also Published As
Publication number | Publication date |
---|---|
CN113407716A (zh) | 2021-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902298B (zh) | 一种自适应学习系统中领域知识建模及知识水平估测方法 | |
AU2020103654A4 (en) | Method for intelligent construction of place name annotated corpus based on interactive and iterative learning | |
WO2021103492A1 (zh) | 一种企业经营风险预测方法和系统 | |
CN109635171B (zh) | 一种新闻节目智能标签的融合推理系统和方法 | |
WO2022100045A1 (zh) | 分类模型的训练方法、样本分类方法、装置和设备 | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN113486667B (zh) | 一种基于实体类型信息的医疗实体关系联合抽取方法 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN111382575A (zh) | 一种基于联合标注和实体语义信息的事件抽取方法 | |
WO2020093761A1 (zh) | 一种面向软件缺陷知识的实体、关系联合抽取方法 | |
CN112463976A (zh) | 一种以群智感知任务为中心的知识图谱构建方法 | |
CN113138920B (zh) | 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置 | |
CN117236676A (zh) | 一种基于多模态事件抽取的rpa流程挖掘方法和装置 | |
CN113988075B (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN113822224A (zh) | 融合多模态学习与多粒度结构学习的谣言检测方法及装置 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN111488911A (zh) | 基于Mask R-CNN与GAN的图像实体抽取方法 | |
CN107480194A (zh) | 多模态知识表示自动学习模型的构建方法及系统 | |
CN115170449A (zh) | 一种多模态融合场景图生成方法、系统、设备和介质 | |
CN113407716B (zh) | 一种基于众包的人类行为文本数据集的构造以及处理方法 | |
CN115114409A (zh) | 一种基于软参数共享的民航不安全事件联合抽取方法 | |
CN116975634A (zh) | 一种基于程序静态属性及图神经网络的微服务提取方法 | |
CN112906391A (zh) | 元事件抽取方法、装置、电子设备和存储介质 | |
CN118709925A (zh) | 基于人工智能的网络安全等级保护管理系统及方法 | |
CN118551040A (zh) | 一种用于企业平台的业务数据可视化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |