CN112307773B - 机器阅读理解系统的自定义问题数据自动生成方法 - Google Patents
机器阅读理解系统的自定义问题数据自动生成方法 Download PDFInfo
- Publication number
- CN112307773B CN112307773B CN202011387634.9A CN202011387634A CN112307773B CN 112307773 B CN112307773 B CN 112307773B CN 202011387634 A CN202011387634 A CN 202011387634A CN 112307773 B CN112307773 B CN 112307773B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- data set
- difficulty
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种机器阅读理解系统的自定义问题数据自动生成方法,包括:数据集预处理模块、答案挖掘模块和问题生成模块,数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器‑解码器架构的神经网络得到生成的问题问句和答案。本发明在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上,实现机器阅读理解系统的可控类型和难度的问题数据自动生成。
Description
技术领域
本发明涉及的是一种信息处理领域的技术,具体是一种机器阅读理解系统的可控类型和难度的问题数据自动生成方法。
背景技术
现有的阅读理解问题生成技术主要是以给定的答案为目标,上下文作为输入,从文本中提取信息进行问题生成的模式。在生成过程中,由于答案被固定,导致问题的类型被固定,同时需要对合适的答案进行标记;除此之外,在机器阅读理解领域中,模型往往需要对模型而言不同难度的问题作为训练数据,来提升整个阅读理解系统的泛化能力。
发明内容
本发明针对现有技术存在的上述不足,提出一种机器阅读理解系统的自定义问题数据自动生成方法,在阅读理解问题的难度的客观评价以及阅读理解问题的类型的客观分类的基础上,实现机器阅读理解系统的可控类型和难度的问题数据自动生成。
本发明是通过以下技术方案实现的:
本发明包括:数据集预处理模块、答案挖掘模块和问题生成模块,其中:数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器-解码器架构的神经网络得到生成的问题问句和答案。
技术效果
本发明整体解决了现有技术中机器阅读理解系统中数据稀少,生成数据方式无法应用于无标记文本,并且缺少控制生成数据的问题类型和难度的手段的问题。
与现有技术相比,本发明能够在无标记文本中自动挖掘问题实体,依据此生成答案;可以控制生成特定类型的问题和对应的答案;可以控制生成特定客观难度的问题和对应的答案。
附图说明
图1为本发明的实施例的技术方案示意图。
图2为本发明的实施例的运行流程示意图。
图3为本发明的实施例中问题生成模型的原理示意图。
具体实施方式
本实施例针对机器阅读理解特性,依据机器阅读模型在问题上的表现,客观定义不同的问题难度。根据机器阅读理解特性,定义不同的问题类型。
本实施例在HotpotQA和SQuAD两个数据集上分别进行难度分类和问题分类,将其作为数据集,在数据集上训练基于Bert的自然语言预训练文本标注模型,得到模型参数,并且利用模型在无标记文档上挖掘答案,将类型和难度分别利用嵌入矩阵进行嵌入表示。对于文档进行命名实体和关系抽取,对于该文档构建小型的语义网络,并且使用双向GRU网络对文档进行表示,利用图神经网络表示基于文档的语义网络。使用Pytorch深度学习框架搭建编码器-解码器架构的序列到序列深度神经网络问题生成模型。聚合图神经网络表示、文档表示和类型难度的嵌入表示作为编码器的输出;使用基于注意力机制和拷贝机制的解码器,得到候选单词的生成概率。在数据集上训练问题生成模型,得到模型参数,并且利用模型在无标记文档上生成问题-答案对。
如图1所示,为本实施例涉及一种类型可选难度可控的英文阅读理解问题自动生成系统,据集预处理模块、答案挖掘模块和问题生成模块,其中:数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器-解码器架构的神经网络得到生成的问题问句和答案。
所述的数据集预处理模块包括:问题难度分类单元、问题类型分类单元、数据集整合切分单元。其中:问题难度分类单元使用机器阅读理解数据集为输入,使用多个机器阅读模型理解模型对数据集进行测试,根据不同模型回答问题的正误打分得到问题难度,输出至问题类型分类单元,问题类型分类单元对使用机器阅读理解数据集为输入,数据集中的问题按照语义进行分类,得到问题类别后输出至数据集切分单元,数据集整合切分单元将问题难度分类单元和问题类型分类单元的输入加入到数据集中,并按照8:1:1的比例切分数据集为训练集、测试集、验证集三部分后输出至答案挖掘模块。
所述的答案挖掘模块包括:问题标注单元、答案生成单元,其中:问题标注单元根据文本中的单词是否为答案进行标记后输出至答案生成单元,答案生成单元根据问题标注单元的输出作为训练集训练模型,将数据集作为输入,得到文档中的问题后输出至问题生成模块。
所述的问题生成模块包括:编码器单元、解码器单元,其中:编码器单元根据文档内容、问题难度、问题类型和问题内容,分别使用神经网络将其嵌入,并且使用图神经网络表示文档语义,使用注意力机制编码为隐藏层,并输出至解码器单元,解码器单元根据隐藏层信息,使用基于GRU神经网络的解码器结合拷贝机制进行解码,得到所生成的问题并输出。
本实施例涉及上述系统的问题生成方法,包括以下步骤:
步骤1、数据集预处理:将数据集处理成为符合深度学习模型开发、训练和测试的样式,并且支持问题难度、问题类型两个维度,具体包括:
1.1)将公开数据集HotpotQA和SQuAD作为数据集,得到<文档,问题,答案>形式的数据。
1.2)使用BERT,ALBERT和RoBERTa三种预训练模型对数据集进行机器阅读理解测试,对于每个问题,得到正确答案将得到1分,每个问题可能得到0-3分中的一个分数作为该问题的难度分数,分数越低表示问题越难。
1.3)对问句的首个单词进行匹配,将问题分类为八种问题类型中的某一类,对于无法分类的问题从数据集中删除。
1.4)对于每个问答对,生成问题的难度和问题的类型,形成新的形式为<文档,问题,答案,难度,类型>的数据集,并且将数据集切分为8:1:1,分别用作训练、测试和开发。
步骤2、答案挖掘:对于无标记的文本,从中挖掘出文本中适合作为问题的答案的实体,以及该实体适合的问题类型,具体包括:
2.1)对于数据集中文档的非答案单词,标注成<N>,答案单词根据问题类型不同分别标注成对应的标签,如将一个“What”类型的问题的答案标注为<WHAT>。
2.2)利用Bert预训练模型,对于文档的词性标注任务进行训练,得到合适的Bert预训练模型参数
2.3)使用训练好的Bert预训练模型,从无标记文本挖掘出答案和对应的问题类型。
2.4)基于生成的答案和对应的问题类型,以及外界输入的难度,构造形为<文档,答案,问题类型,难度>的需要生成问题的样本集合。
步骤3、生成问题:对于无标记的文本,基于答案挖掘得到的答案,基于给定的问题难度和问题类型生成多样化的问题,具体包括:
3.1)将类型和难度分别利用嵌入矩阵进行嵌入表示。将不同的类型、难度分别赋值为0,1,2…以进行独热化,Wt表示类型的嵌入矩阵,Wd表示难度的嵌入矩阵。将独热化的值乘以嵌入矩阵即可得到嵌入值Et,Ed。
3.2)对于文档进行命名实体和关系抽取,对于该文档构建小型的语义网络G=(V,E)。网络中包含语义信息、指代信息、和实体关系。
3.5)使用门控图注意力神经网络(GGNN)进行图信息传播,在第T轮时传播中止,得到图神经网络在T轮时状态HT。
3.7)使用基于GRU的解码器对于全局嵌入信息E进行解码,当解码至第t步,输入全局嵌入,上一步的隐藏状态,上一个生成的单词,难度嵌入和类型嵌入,计算得到当前步的隐藏状态St=GRU([E,Et,Ed,wt-1],St-1)。
3.8)依据隐藏层信息,通过字典模式和拷贝模式两种模式得到对应的生成单词p(yt)=pgenPvocab(yt)+(1-pgen)Pcopy(yt),其中从字典中生成单词的概率pgen=Sigmoid(FFN(St,yt))
3.9字典模式中,使用前馈网络得到从字典中每个单词被选择的概率Pvocab(yt)=softmax(FFN(St,yt))。
3.11)使用p(y_t)生成问题句子中的每一个单词,将生成的单词拼接从而生成阅读理解问题。
综上,本发明将问题类型和难度融合进入基于神经网络的问题生成的机制,其与现有常规技术手段相比具有显著改进的技术细节具体为:使用了图神经网络以及注意力机制实现了难度与类型可控的问题生成。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。
Claims (5)
1.一种机器阅读理解系统的自定义问题数据自动生成系统,其特征在于,包括:数据集预处理模块、答案挖掘模块和问题生成模块,其中:数据集预处理模块根据HotpotQA和SQuAD机器阅读理解数据集中的信息,使用模型判定机制进行问题难度分类,得到每个问题的客观难度,使用问题类型分类器进行问题类型分类并得到每个问题的类型,将数据集进行数据集切分后输出至答案挖掘模块,答案挖掘模块从数据集中的文本得到作为答案的实体和问题类型后输出至问题生成模块,问题生成模块根据数据集文本,答案实体以及问题类型,使用编码器-解码器架构的神经网络得到生成的问题问句和答案;
所述的自动生成,包括以下步骤:
步骤1、数据集预处理:将数据集处理成为符合深度学习模型开发、训练和测试的样式,并且支持问题难度、问题类型两个维度,具体包括:
1.1)将公开数据集HotpotQA和SQuAD作为数据集,得到<文档,问题,答案>形式的数据;
1.2)使用BERT,ALBERT和RoBERTa三种预训练模型对数据集进行机器阅读理解测试,对于每个问题,得到正确答案将得到1分,每个问题得到0-3分中的一个分数作为该问题的难度分数,分数越低表示问题越难;
1.3)对问句的首个单词进行匹配,将问题分类为八种问题类型中的某一类,对于无法分类的问题从数据集中删除;
1.4)对于每个问答对,生成问题的难度和问题的类型,形成新的形式为<文档,问题,答案,难度,类型>的数据集,并且将数据集切分为8:1:1,分别用作训练、测试和开发;
步骤2、答案挖掘:对于无标记的文本,从中挖掘出文本中适合作为问题的答案的实体,以及该实体适合的问题类型,具体包括:
2.1)对于数据集中文档的非答案单词,标注成<N>,答案单词根据问题类型不同分别标注成对应的标签;
2.2)利用Bert预训练模型,对于文档的词性标注任务进行训练,得到对应的Bert预训练模型参数;
2.3)使用训练好的Bert预训练模型,从无标记文本挖掘出答案和对应的问题类型;
2.4)基于生成的答案和对应的问题类型,以及外界输入的难度,构造形为<文档,答案,问题类型,难度>的需要生成问题的样本集合;
步骤3、生成问题:对于无标记的文本,基于答案挖掘得到的答案,基于给定的问题难度和问题类型生成多样化的问题,具体包括:
3.1)将类型和难度分别利用嵌入矩阵进行嵌入表示;将不同的类型、难度分别赋值为0,1,2…以进行独热化,Wt表示类型的嵌入矩阵,Wd表示难度的嵌入矩阵;将独热化的值乘以嵌入矩阵即可得到嵌入值Et,Ed;
3.2)对于文档进行命名实体和关系抽取,对于该文档构建小型的语义网络G=(V,E);网络中包含语义信息、指代信息、和实体关系;
3.5)使用门控图注意力神经网络(GGNN)进行图信息传播,在第T轮时传播中止,得到图神经网络在T轮时状态HT;
3.7)使用基于GRU的解码器对于全局嵌入信息E进行解码,当解码至第t步,输入全局嵌入,上一步的隐藏状态,上一个生成的单词,难度嵌入和类型嵌入,计算得到当前步的隐藏状态ST=GRU([E,Et,Ed,wt-1],St-1);
3.8)依据隐藏层信息,通过字典模式和拷贝模式两种模式得到对应的生成单词p(yt)=pgenPvocab(yt)+(1-pgen)Pcopy(yt),其中从字典中生成单词的概率pgen=Sigmoid(FFN(St,yt));
3.9)字典模式中,使用前馈网络得到从字典中每个单词被选择的概率Pvovab(yt)=softmax(FFN(St,yt));
3.11)使用p(y_t)生成问题句子中的每一个单词,将生成的单词拼接从而生成阅读理解问题。
2.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成系统,其特征是,所述的数据集预处理模块包括:问题难度分类单元、问题类型分类单元、数据集整合切分单元;其中:问题难度分类单元使用机器阅读理解数据集为输入,使用多个机器阅读模型理解模型对数据集进行测试,根据不同模型回答问题的正误打分得到问题难度,输出至问题类型分类单元,问题类型分类单元对使用机器阅读理解数据集为输入,数据集中的问题按照语义进行分类,得到问题类别后输出至数据集整合切分单元,数据集整合切分单元将问题难度分类单元和问题类型分类单元的输入加入到数据集中切分数据集为训练集、测试集、验证集后输出至答案挖掘模块。
3.根据权利要求2所述的机器阅读理解系统的自定义问题数据自动生成系统,其特征是,所述的训练集、测试集、验证集的比例为8:1:1。
4.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成系统,其特征是,所述的答案挖掘模块包括:问题标注单元、答案生成单元,其中:问题标注单元根据文本中的单词是否为答案进行标记后输出至答案生成单元,答案生成单元根据问题标注单元的输出作为训练集训练模型,将数据集作为输入,得到文档中的问题后输出至问题生成模块。
5.根据权利要求1所述的机器阅读理解系统的自定义问题数据自动生成系统,其特征是,所述的问题生成模块包括:编码器单元、解码器单元,其中:编码器单元根据文档内容、问题难度、问题类型和问题内容,分别使用神经网络将其嵌入,并且使用图神经网络表示文档语义,使用注意力机制编码为隐藏层,并输出至解码器单元,解码器单元根据隐藏层信息,使用基于GRU神经网络的解码器结合拷贝机制进行解码,得到所生成的问题并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387634.9A CN112307773B (zh) | 2020-12-02 | 2020-12-02 | 机器阅读理解系统的自定义问题数据自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387634.9A CN112307773B (zh) | 2020-12-02 | 2020-12-02 | 机器阅读理解系统的自定义问题数据自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112307773A CN112307773A (zh) | 2021-02-02 |
CN112307773B true CN112307773B (zh) | 2022-06-21 |
Family
ID=74487716
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011387634.9A Active CN112307773B (zh) | 2020-12-02 | 2020-12-02 | 机器阅读理解系统的自定义问题数据自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112307773B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732888A (zh) * | 2021-04-01 | 2021-04-30 | 中国人民解放军国防科技大学 | 一种基于图推理模型的答案预测方法及装置 |
CN113094489A (zh) * | 2021-05-08 | 2021-07-09 | 北京邮电大学 | 基于疑问词分类器的神经网络问题生成方法及生成系统 |
CN113657089A (zh) * | 2021-08-20 | 2021-11-16 | 西安电子科技大学 | 一种英语阅读理解辅助出题方法及系统 |
CN114495130B (zh) * | 2021-12-27 | 2023-03-24 | 北京百度网讯科技有限公司 | 基于跨模态信息的文档阅读理解模型训练方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684452A (zh) * | 2018-12-25 | 2019-04-26 | 中科国力(镇江)智能技术有限公司 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN111552773A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种阅读理解任务中是否类问题关键句寻找方法及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150064680A1 (en) * | 2013-08-28 | 2015-03-05 | UMeWorld | Method and system for adjusting the difficulty degree of a question bank based on internet sampling |
CN107506346A (zh) * | 2017-07-10 | 2017-12-22 | 北京享阅教育科技有限公司 | 一种基于机器学习的中文阅读难度分级方法及系统 |
US11250038B2 (en) * | 2018-01-21 | 2022-02-15 | Microsoft Technology Licensing, Llc. | Question and answer pair generation using machine learning |
CN109033068B (zh) * | 2018-06-14 | 2022-07-12 | 北京慧闻科技(集团)有限公司 | 基于注意力机制的用于阅读理解的方法、装置和电子设备 |
CN109271483B (zh) * | 2018-09-06 | 2022-03-15 | 中山大学 | 基于递进式多判别器的问题生成方法 |
CN109614471B (zh) * | 2018-12-07 | 2021-07-02 | 北京大学 | 一种基于生成式对抗网络的开放式问题自动生成方法 |
CN111639187B (zh) * | 2019-03-01 | 2023-05-16 | 上海数眼科技发展有限公司 | 一种基于知识图谱的知识问答验证码生成系统及方法 |
US11775775B2 (en) * | 2019-05-21 | 2023-10-03 | Salesforce.Com, Inc. | Systems and methods for reading comprehension for a question answering task |
CN110633730B (zh) * | 2019-08-07 | 2023-05-23 | 中山大学 | 一种基于课程学习的深度学习机器阅读理解训练方法 |
CN111538819B (zh) * | 2020-03-27 | 2024-02-20 | 深圳乐读派科技有限公司 | 一种基于文档集多跳推理的问答系统的构建方法 |
CN111611361B (zh) * | 2020-04-01 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 抽取式机器智能阅读理解问答系统 |
CN111563146B (zh) * | 2020-04-02 | 2023-05-23 | 华南理工大学 | 一种基于推理的难度可控问题生成方法 |
CN112015883A (zh) * | 2020-08-24 | 2020-12-01 | 上海松鼠课堂人工智能科技有限公司 | 英文题目自动生成方法和系统 |
-
2020
- 2020-12-02 CN CN202011387634.9A patent/CN112307773B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019229769A1 (en) * | 2018-05-28 | 2019-12-05 | Thottapilly Sanjeev | An auto-disambiguation bot engine for dynamic corpus selection per query |
CN109684452A (zh) * | 2018-12-25 | 2019-04-26 | 中科国力(镇江)智能技术有限公司 | 一种基于答案与答案位置信息的神经网络问题生成方法 |
CN111552773A (zh) * | 2020-04-24 | 2020-08-18 | 中国科学院空天信息创新研究院 | 一种阅读理解任务中是否类问题关键句寻找方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112307773A (zh) | 2021-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112307773B (zh) | 机器阅读理解系统的自定义问题数据自动生成方法 | |
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
CN111708882B (zh) | 基于Transformer的中文文本信息缺失的补全方法 | |
CN109886270B (zh) | 一种面向电子卷宗笔录文本的案件要素识别方法 | |
CN109815476B (zh) | 一种基于中文语素和拼音联合统计的词向量表示方法 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN109949637B (zh) | 一种客观题目的自动解答方法和装置 | |
CN110276069A (zh) | 一种中国盲文错误自动检测方法、系统及存储介质 | |
CN111553159B (zh) | 一种问句生成方法及系统 | |
CN112364125B (zh) | 一种联合阅读课程学习机制的文本信息抽取系统及方法 | |
CN111368082A (zh) | 一种基于层次网络的领域自适应词嵌入的情感分析方法 | |
CN110929714A (zh) | 一种基于深度学习的密集文本图片的信息提取方法 | |
CN113139054A (zh) | 一种基于Transformer的代码编程语言分类方法 | |
CN115293168A (zh) | 基于预训练模型语义理解的多语言缩写消歧义算法 | |
CN113609840B (zh) | 一种汉语法律判决摘要生成方法及系统 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN117236335B (zh) | 基于提示学习的两阶段命名实体识别方法 | |
CN114444481A (zh) | 一种新闻评论的情感分析与生成方法 | |
CN114118113A (zh) | 一种基于语境识别的机器翻译方法 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN114218936A (zh) | 一种媒体领域的优质评论自动生成算法 | |
Zhai | Design of Oral English Training System Based on Big Data Content Recommendation Algorithm | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |