CN112115264B - 面向数据分布变化的文本分类模型调整方法 - Google Patents
面向数据分布变化的文本分类模型调整方法 Download PDFInfo
- Publication number
- CN112115264B CN112115264B CN202010959524.9A CN202010959524A CN112115264B CN 112115264 B CN112115264 B CN 112115264B CN 202010959524 A CN202010959524 A CN 202010959524A CN 112115264 B CN112115264 B CN 112115264B
- Authority
- CN
- China
- Prior art keywords
- data
- sample
- network
- label
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000008859 change Effects 0.000 title claims abstract description 20
- 238000013145 classification model Methods 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 8
- 238000009825 accumulation Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008092 positive effect Effects 0.000 abstract description 3
- 230000003042 antagnostic effect Effects 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 12
- 238000013135 deep learning Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明揭示了一种面向数据分布变化的文本分类模型调整方法,能够根据数据分布情况的变化,先对在线文本数据流进行标签预测,而后通过相似度计算和价值筛选,分类进行人工标注,采用对抗的训练样本数据集分别迭代训练判别网络,动态地对已训练好的识别网络模型进行调整和更新,使得离线模型自适应在线系统数据特征发生变化的情况;同时针对完全手动标注样本困难的情况提供一种有效的半自动化标注数据方法,对于文本分类技术的实际应用效果具有积极作用。
Description
技术领域
本发明涉及一种文本数据分类及模型更新方法,尤其涉及面向数据分布变化的文本分类模型适应性调整方法,属于网络数据处理技术领域。
背景技术
文本分类是自然语言处理领域的一个经典问题,相关研究最早可以追溯到50年代专家规则的模式识别。后来伴随着统计学习方法的发展,特别是90年代后在线文本数量增长和机器学习学科的兴起,逐渐形成了人工特征工程+浅层分类建模的流程。近年来深度学习在NLP上的发展,使得基于深度学习的文本分类模型取得了不错的效果。相较于传统分类模型,深度学习能够自动获取特征表达能力,去掉繁杂的人工特征工程,实现端到端的解决问题,展现出明显的优势。
文本分类技术虽然取得了很大的进展,但在实际应用中还是存在一些问题:一者、标注样本数量少,分布不均衡引起拟合偏移。高质量的标记数据有助于提升文本分类的准确率,然而互联网上存在大量杂乱无章的无标签数据,完全依赖人工标注的成本高,效率低,并且样本分布不均衡,这些特点容易造成生成的模型不能很好的拟合数据总体的分布状态。
再者、数据分布变化引起模型失效。一方面,随着时间的推移,新的数据不断产生,数据的特征分布也在逐步变化,引起已有模型识别准确率的下降,另一方面,在业务应用中,会不断有新类识别的需求产生,已有模型难以适应新类识别任务。
发明内容
为解决上述现有技术中存在的问题,本发明的目的旨在提出一种面向数据分布变化的文本分类模型调整方法,以适应文本数据海量增长和特征分布变化环境下的文本分类要求。
本发明实现上述目的的技术解决方案是:面向数据分布变化的文本分类模型调整方法,其特征在于包括步骤:S1、构建识别网络,由带标签数据训练识别网络,用于在线文本数据的分类,获得每条文本数据的预测类别;S2、将识别网络的分类结果,通过相似度计算聚成不同的样本子集,比对样本子集与原有训练样本的分布情况,进行主动样本选择和训练样本积累;S3、构建判别网络,用手动标注后的真实标签数据和识别网络分类后未标注的预测标签数据训练判别网络,用于判断输入的“样本-标签”数据是预测标签还是真实标签;S4、从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集,从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集,基于正样本数据集、负样本数据集采用增量迭代训练判别网络,并更新在线系统的判别网络模型;S5、识别网络根据判别网络返回的奖励值计算预期奖励的梯度,并通过策略梯度的方式更新识别网络的模型参数。
应用本发明文本分类模型调整的技术解决方案,具备突出的实质性特点和显著的进步性:(1)数据分布发生变化时,能够动态调整和更新识别网络模型。在离线模型应用于在线系统时,能够实时调整识别网络,使其符合当前数据分布特征,持续保持在线识别结果的高精度,对于文本分类技术的实际应用具有积极作用。
(2)在模型迭代更新时,引入了对抗训练和强化学习的理念。识别网络通过和判别网络对抗学习,并用策略梯度更新模型的方法,相比于传统模型迭代更新方法,能够促进文本分类的发展。
(3)提供了一种有效的半自动化标注数据方法,能够降低人工标注的成本,提高标注效率;能够丰富训练样本集,解决样本数量少,分布不均衡引起拟合偏移的问题;还可以将积累的训练样本集作为知识库,应用于其它相关领域,提高了应用系统的可扩展性。
附图说明
图1为本发明文本分类模型调整方法各实施阶段的总体流程图。
图2为本发明方法中步骤S2细节的执行流程图。
图3为本发明方法中步骤S4细节的执行流程图。
图4为本发明方法中步骤S5细节的执行流程图。
具体实施方式
有鉴于文本分类的技术发展现状的缺陷及针对以“数据分布变化、模型、调整”为关键词的技术文献的研究,本申请设计者创新提出了一种面向数据分布变化的文本分类模型调整方法,能够根据数据分布情况的变化,动态地对已训练好的模型进行调整和更新,使得离线模型自适应在线系统数据特征发生变化的情况,同时针对完全手动标注样本困难的情况提供一种有效的半自动化标注数据方法,避免样本数据分布不均衡引起拟合偏移的情况,对于文本分类技术的实际应用效果具有积极作用。
该文本分类模型调整方法的概述特征包括步骤:S1、构建识别网络,由带标签数据训练识别网络,用于在线文本数据的分类;输入为在线文本数据流,输出为每条文本数据的预测类别,并且在系统应用中定期的迭代更新模型,以适应在线数据的分布变化。S2、将识别网络的分类结果,通过相似度计算聚成不同的样本子集,比对样本子集与原有训练样本的分布情况,进行主动样本选择和训练样本积累。S3、构建判别网络,用手动标注后的真实标签数据(正样本)和识别网络分类后未标注的预测标签数据(负样本)以对抗方式训练判别网络,用于判断输入的“样本-标签”数据是预测标签还是真实标签,并返回一个价值,作为识别网络策略梯度更新的回报。S4、定期地从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集,从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集,基于正样本数据集、负样本数据集采用增量迭代训练判别网络,并更新在线系统的判别网络模型,以适应当前所需判别的数据分布情况。S5、利用强化学习的方式对识别网络模型进行更新,所要预测的在线数据流作为状态,预测标签作为动作,识别网络作为策略模型,根据模型的参数和在线文本数据特征,确定其类别标签的选择概率。判别网络根据识别网络预测的标签(即选择的动作),判断预测标签和真实标签的相似程度,并返回对应的价值。识别网络模型根据返回的回报,以策略梯度方式更新模型参数。识别网络根据判别网络返回的奖励值计算预期奖励的梯度,并通过策略梯度的方式更新识别网络的模型参数。
其中步骤S2中主动样本选择的过程含义为:设置样本子集相对现有训练样本数据集的价值阈值,将识别网络的分类结果(在线识别结果),通过相似度计算聚成不同的子集,即与一个现有类型相似的文本数据聚集为一个子集,与另一个现有类型相似的文本数据聚集为另一个子集,与现有类型分布较远的文本数据聚集为其它多个子集。主动样本选择根据不同子集与原有训练样本的分布情况,排除能够聚合到现有训练样本数据集的样本子集,挑选出有标注价值的部分样本子集。
其中步骤S2中训练样本积累的过程含义为:通过“选择策略”,挑选最有价值的子集,反馈给专业人员(相关领域的专家)进行标注。在样本挑选过程中遵循所选择的子集具有较高的不确定性和多样性的原则。然后将标注样本增加到训练样本数据集中,以完善丰富训练样本集。在样本标注过程中针对相似的样本子集仅需要标注一次即可,从而实现半自动化的样本标注,降低人工标注成本。
以下便结合实施例图示对本发明的具体实施方式做进一步的详述,以使本发明技术方案更易于理解、掌握,从而对本发明的保护范围做出更为清晰的界定。
如图1所示各实施阶段的总体流程图,图中结点S1描述第一阶段,主要完成识别网络的构建和初始化。针对文本分类实际应用场景,基于深度学习构建合适的识别网络,然后根据最初的训练样本数据集训练生成识别网络模型,用于在线文本数据的类别预测。结点S2描述第二阶段,主要完成训练样本集的积累。识别网络对在线文本数据分类结果,通过相似度计算聚成不同的子集,然后选择有标注价值的部分子集交由专业人员进行手动标注,将标注结果存入训练样本集中。结点S3描述第三阶段,主要完成判别网络的构建和初始化。基于深度学习构建合适的判别网络,用真实标签数据(正样本)和预测标签数据(负样本)训练判别网络,训练好的判别网络针对输入的“样本-标签”数据判断该标签是人工标注的真实标签还是识别网络预测的标签。结点S4描述第四阶段,主要完成判别网络的迭代更新。定期的从积累的训练样本集中选取正样本集“样本-真实标签”,从识别网络的在线分类结果中选取负样本集“样本-预测标签”,构造训练判别网络的新训练集,并利用该数据集迭代更新已有的判别网络模型。结点S5描述第五阶段,主要完成识别网络基于策略梯度迭代更新,识别网络在线预测的结果输入判别网络中,判别网络判断输入的数据是真实标签还是预测标签,根据预测标签和真实标签的相似度确定返回的奖励值回报,识别网络基于回报进行策略更新模型参数。
从各步骤细节的执行流程图来理解,定期的将在线数据的识别结果,经过选择交于专业人员标注,进行训练样本的积累,该流程的执行过程如图2所示:其中子步骤S21,启动后,将一段时间内识别网络分类结果进行相似度计算聚成不同子集,并针对每个子集提供一条典型样本。子步骤S22,根据主动样本选择策略判断不同子集被选择标注的价值,选择策略的制定遵循所选择的子集具有较高的不确定性和多样性的原则。如某一子集能够聚合到现有训练样本某一子集中则被选择的价值较低,若某一子集中心点和训练样本数据整体分布域相差较远或某一子集中心点处于训练样本数据不同类别分布中间区域则被选择的价值较高。子步骤S23,对S22中具有不同被选择价值的每个子集,做以下操作:首先检查当前子集被选择的价值是否大于预设的阈值,如果低于阈值,则结束当前子集的处理,如果高于阈值,则将当前子集交由专业人员进行标注,专业人员仅需确定该子集中典型样本的标签即可,最后将确定后子集的样本及其真实标签存入训练样本集中,结束当前子集的处理操作。
每隔固定时间或者新训练样本数量达到某一数值,则迭代更新判别网络,以适应当前判别数据分布变化,该流程主要包括新训练集的构造和判别网络的迭代更新两部分,其执行过程如图3所示:其中子步骤S41,流程启动后,从训练样本集中选取真实标签数据,生成格式为“样本-真实标签”的正样本数据集,从识别网络分类结果中选取预测标签数据,生成格式为“样本-预测标签”的负样本数据集,然后通过正负样本集构造训练判别网络的新训练集。子步骤S42,利用上述生成的新训练集,采用增量迭代训练判别网络,并更新在线系统的判别网络模型。
每隔固定时间或者识别网络分类结果数量达到某一数值,则通过策略梯度的方式更新在线网络,以适应当前在线数据分布变化。由此可见识别网络设有自定义的更新周期,该流程主要包括判别网络计算奖励值和识别网络的策略更新两部分,其执行过程如图4所示:其中子步骤S51,流程启动后,从识别网络分类结果中选取m条预测标签数据转换为“样本-预测标签”格式,输入判别网络中判断该m条数据预测标签和真实标签的相似度,并将该相似度值作为识别网络预测标签这一动作的奖励值。m为对应识别网络更新自定义的分类结果数量,m条数据得自于更新周期下在线文本数据的长度。子步骤S52.,根据判别网络返回的奖励值,计算预期奖励的梯度,并通过策略梯度的方式更新识别网络的模型参数,以达到识别网络模型迭代更新的目的,流程执行结束。
除上述实施例外,本发明还可以有其它实施方式,凡采用等同替换或等效变换形成的技术方案,均落在本发明所要求保护的范围之内。
Claims (5)
1.面向数据分布变化的文本分类模型调整方法,其特征在于包括步骤:
S1、构建识别网络,由带标签数据训练识别网络,用于在线文本数据的分类,获得每条文本数据的预测类别;
S2、将识别网络的分类结果,通过相似度计算聚成不同的样本子集,比对样本子集与原有训练样本的分布情况,进行主动样本选择和训练样本积累;
S3、构建判别网络,用手动标注后的真实标签数据和识别网络分类后未标注的预测标签数据训练判别网络,用于判断输入的“样本-标签”数据是预测标签还是真实标签;
S4、从训练样本集中选取真实标签的数据生成格式为“样本-真实标签”的正样本数据集,从识别网络的分类结果中选取预测标签的数据生成格式为“样本-预测标签”的负样本数据集,基于正样本数据集、负样本数据集采用增量迭代训练判别网络,并更新在线系统的判别网络模型;
S5、判别网络计算奖励值,从识别网络的分类结果中选取m条数据转换为“样本-预测标签”格式,并输入判别网络中判断m条数据预测标签与真实标签的相似度,作为识别网络预测分类的奖励值,m为对应识别网络更新自定义的分类结果数量;识别网络根据判别网络返回的奖励值计算预期奖励的梯度,并通过策略梯度的方式更新识别网络的模型参数。
2.根据权利要求1所述面向数据分布变化的文本分类模型调整方法,其特征在于:步骤S1所构建的识别网络于在线系统流程启动后,输入为在线文本数据流,输出为每条文本数据的预测类别。
3.根据权利要求1所述面向数据分布变化的文本分类模型调整方法,其特征在于:步骤S2包含主动样本选择,设置样本子集相对现有训练样本数据集的价值阈值,排除能够聚合到现有训练样本数据集的样本子集,挑选出有标注价值的部分样本子集。
4.根据权利要求1所述面向数据分布变化的文本分类模型调整方法,其特征在于:步骤S2包含训练样本积累,经挑选的部分样本子集进行手动标注,并将标注后的样本添加至现有训练样本数据集。
5.根据权利要求1所述面向数据分布变化的文本分类模型调整方法,其特征在于:识别网络设有自定义的更新周期,且m条数据得自于更新周期下在线文本数据的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959524.9A CN112115264B (zh) | 2020-09-14 | 2020-09-14 | 面向数据分布变化的文本分类模型调整方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010959524.9A CN112115264B (zh) | 2020-09-14 | 2020-09-14 | 面向数据分布变化的文本分类模型调整方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115264A CN112115264A (zh) | 2020-12-22 |
CN112115264B true CN112115264B (zh) | 2024-03-22 |
Family
ID=73802591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010959524.9A Active CN112115264B (zh) | 2020-09-14 | 2020-09-14 | 面向数据分布变化的文本分类模型调整方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115264B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112968705B (zh) * | 2021-02-03 | 2022-05-31 | 杭州数梦工场科技有限公司 | 一种号码分类方法、装置、电子设备及存储介质 |
CN113592649A (zh) * | 2021-07-28 | 2021-11-02 | 北京易华录信息技术股份有限公司 | 一种数据资产价值确定方法、装置及电子设备 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5308360B2 (ja) * | 2010-01-15 | 2013-10-09 | 日本電信電話株式会社 | コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム |
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN108509520A (zh) * | 2018-03-09 | 2018-09-07 | 中山大学 | 基于词性和多重cnn的多通道文本分类模型的构建方法 |
JP2019028839A (ja) * | 2017-08-01 | 2019-02-21 | 国立研究開発法人情報通信研究機構 | 分類器、分類器の学習方法、分類器における分類方法 |
CN109446332A (zh) * | 2018-12-25 | 2019-03-08 | 银江股份有限公司 | 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法 |
CN109800785A (zh) * | 2018-12-12 | 2019-05-24 | 中国科学院信息工程研究所 | 一种基于自表达相关的数据分类方法和装置 |
CN110263166A (zh) * | 2019-06-18 | 2019-09-20 | 北京海致星图科技有限公司 | 基于深度学习的舆情文本分类方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110414780A (zh) * | 2019-06-18 | 2019-11-05 | 东华大学 | 一种基于生成对抗网络的金融交易负样本生成方法 |
CN110532377A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
CN110807332A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN111027292A (zh) * | 2019-11-29 | 2020-04-17 | 北京邮电大学 | 一种限定采样文本序列生成方法及其系统 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017188048A1 (ja) * | 2016-04-28 | 2017-11-02 | 日本電信電話株式会社 | 作成装置、作成プログラム、および作成方法 |
-
2020
- 2020-09-14 CN CN202010959524.9A patent/CN112115264B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5308360B2 (ja) * | 2010-01-15 | 2013-10-09 | 日本電信電話株式会社 | コンテンツ自動分類装置、コンテンツ自動分類方法およびコンテンツ自動分類プログラム |
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
JP2019028839A (ja) * | 2017-08-01 | 2019-02-21 | 国立研究開発法人情報通信研究機構 | 分類器、分類器の学習方法、分類器における分類方法 |
CN108509520A (zh) * | 2018-03-09 | 2018-09-07 | 中山大学 | 基于词性和多重cnn的多通道文本分类模型的构建方法 |
CN109800785A (zh) * | 2018-12-12 | 2019-05-24 | 中国科学院信息工程研究所 | 一种基于自表达相关的数据分类方法和装置 |
CN109446332A (zh) * | 2018-12-25 | 2019-03-08 | 银江股份有限公司 | 一种基于特征迁移和自适应学习的人民调解案例分类系统及方法 |
CN110532377A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于对抗训练和对抗学习网络的半监督文本分类方法 |
CN110414780A (zh) * | 2019-06-18 | 2019-11-05 | 东华大学 | 一种基于生成对抗网络的金融交易负样本生成方法 |
CN110263166A (zh) * | 2019-06-18 | 2019-09-20 | 北京海致星图科技有限公司 | 基于深度学习的舆情文本分类方法 |
CN110399845A (zh) * | 2019-07-29 | 2019-11-01 | 上海海事大学 | 一种图像中连续成段文本检测与识别方法 |
CN110807332A (zh) * | 2019-10-30 | 2020-02-18 | 腾讯科技(深圳)有限公司 | 语义理解模型的训练方法、语义处理方法、装置及存储介质 |
CN110826320A (zh) * | 2019-11-28 | 2020-02-21 | 上海观安信息技术股份有限公司 | 一种基于文本识别的敏感数据发现方法及系统 |
CN111027292A (zh) * | 2019-11-29 | 2020-04-17 | 北京邮电大学 | 一种限定采样文本序列生成方法及其系统 |
CN111159454A (zh) * | 2019-12-30 | 2020-05-15 | 浙江大学 | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 |
Non-Patent Citations (1)
Title |
---|
基于客户端的个性化邮件再过滤系统;徐丹丹等;《中国科学:信息科学》;第1681-1696页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112115264A (zh) | 2020-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102693309B (zh) | 用于计算机辅助翻译的候选短语查询方法及辅助翻译系统 | |
CN111597347B (zh) | 知识嵌入的缺陷报告重构方法及装置 | |
CN112115264B (zh) | 面向数据分布变化的文本分类模型调整方法 | |
CN112307153B (zh) | 一种产业知识库自动构建方法、装置及存储介质 | |
CN112069310A (zh) | 基于主动学习策略的文本分类方法及系统 | |
CN103020289B (zh) | 一种基于日志挖掘的搜索引擎用户个性化需求提供方法 | |
CN111626041B (zh) | 一种基于深度学习的音乐评论生成方法 | |
CN110175235A (zh) | 基于神经网络的智能商品税分类编码方法及系统 | |
CN109787821B (zh) | 一种大规模移动客户流量消费智能预测方法 | |
CN113591971A (zh) | 基于dpi时间序列词嵌入向量的用户个性行为预测方法 | |
CN117453915A (zh) | 一种基于可规划工作流的大语言模型的复杂任务处理方法 | |
CN112464984A (zh) | 一种基于注意力机制和强化学习的自动特征构造方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN117291655B (zh) | 基于实体、网络协同映射的消费者生命周期运营分析方法 | |
CN114048314A (zh) | 一种自然语言隐写分析方法 | |
CN111339258B (zh) | 基于知识图谱的大学计算机基础习题推荐方法 | |
CN109740221B (zh) | 一种基于搜索树的智能工业设计算法 | |
CN112199287B (zh) | 基于强化混合专家模型的跨项目软件缺陷预测方法 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
CN114254199A (zh) | 基于二分图投影和node2vec的课程推荐方法 | |
Yu et al. | Deep Bug Triage Model Based on Multi-head Self-attention Mechanism | |
CN114385805B (zh) | 一种提高深度文本匹配模型适应性的小样本学习方法 | |
CN113282705B (zh) | 一种能够自动更新的案件预判智能体训练方法及系统 | |
CN117634867B (zh) | 结合大语言模型与强化学习的rpa流程自动构建方法及系统 | |
CN117556016A (zh) | 一种基于语义与结构采样策略的实体对齐方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 215123 unit D1, artificial intelligence Industrial Park, No. 88, Jinjihu Avenue, Suzhou Industrial Park, Suzhou City, Jiangsu Province Applicant after: Zhongke Suzhou Intelligent Computing Technology Research Institute Address before: Unit D1, artificial intelligence Industrial Park, 88 Jinjihu Avenue, Suzhou Industrial Park, Jiangsu Province Applicant before: Institute of computing technology, Chinese Academy of Sciences |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |