CN111737456A - 一种语料信息的处理方法和装置 - Google Patents

一种语料信息的处理方法和装置 Download PDF

Info

Publication number
CN111737456A
CN111737456A CN202010413342.1A CN202010413342A CN111737456A CN 111737456 A CN111737456 A CN 111737456A CN 202010413342 A CN202010413342 A CN 202010413342A CN 111737456 A CN111737456 A CN 111737456A
Authority
CN
China
Prior art keywords
word vector
word
corpus
information
distribution information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010413342.1A
Other languages
English (en)
Other versions
CN111737456B (zh
Inventor
王璋琪
卢亿雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike Beijing Data Technology Co ltd
Original Assignee
Enyike Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike Beijing Data Technology Co ltd filed Critical Enyike Beijing Data Technology Co ltd
Priority to CN202010413342.1A priority Critical patent/CN111737456B/zh
Publication of CN111737456A publication Critical patent/CN111737456A/zh
Application granted granted Critical
Publication of CN111737456B publication Critical patent/CN111737456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种语料信息的处理方法和装置。所述方法包括:对获取到的语料进行多维的词向量的转换;通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;根据所述词向量的分布信息,控制对所述语料的标注操作。

Description

一种语料信息的处理方法和装置
技术领域
本申请实施例涉及信息处理领域,尤指一种语料信息的处理方法和装置。
背景技术
语料模型可以划分为上游的语料处理以及下游的分析模型;其中,语料处理的对象是进过标注的语料,其中标注可以由人工进行标注,或者,采用语料模进行语料的标注。由于人工语料标注往往是耗时耗力的问题,所以常用的标注手段是语料模型。因为语料模型对训练集有着极大的依赖性,因此对于语言模型的训练不能抛开训练集的考虑。
训练集的处理可以是将一个通用的训练充分的模型和一个特定的训练不充分的模型通过某种方式组合成一个新的模型。其中,训练通用模型需要针对多个领域搜集大量的语料并进行手工标注,其过程往往是无选择性且极耗精力以及财力的。
在相关技术中,可以采用文本聚类的方式对语料进行分析,例如,采用K最近邻(KNN,K-Nearest Neighbor)分类算法。KNN算法的核心策略是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
在实际应用中,发现上述分类算法存在着效率低、准确性有待提高的问题。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种语料信息的处理方法和装置。
为了达到本申请实施例目的,本申请实施例提供了一种语料信息的处理方法,包括:
对获取到的语料进行多维的词向量的转换;
通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;
按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
根据所述词向量的分布信息,控制对所述语料的标注操作。
一种语料信息的处理装置,包括:
获取模块,被设置为对获取到的语料进行多维的词向量的转换;
确定模块,被设置为利用预先获取的PIP损失函数,确定词向量的特征维度;
聚类模块,被设置为按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
控制模块,被设置为根据所述词向量的分布信息,控制对所述语料的标注操作。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文所述的方法。
上述技术方案中的一个技术方案具有如下优点或有益效果:
对获取到的语料进行多维的词向量的转换,通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度,按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息,根据所述词向量的分布信息,控制对所述语料的标注操作,实现通过计算损失信息达到语料模型的自适应目的,有效提高标注操作的效率。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的语料信息的处理方法的流程图;
图2为本申请实施例提供的自适应语言模型的处理方法的流程图;
图3为本申请实施例提供的自适应语言模型的调整方法的流程图;
图4为本申请实施例提供的语料信息的处理装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
在实现本申请过程中,发明人对相关技术进行了技术分析,发现相关技术至少存在如下问题,包括:
1、在对文本聚类前的特征提取步骤是直接进行tf-idf,把文本转成数字向量,而这种处理方法并不能捕捉到字与字或者词与词之间的联系;
2、KNN分类方案的计算量较大,无法应用于数据量大或者维度较大的数据集;而且这两种方式无法很好的捕捉数据的分布,不能提供关于数据的其他信息。
图1为本申请实施例提供的语料信息的处理方法的流程图一种语料信息的处理方法,包括:
步骤101、对获取到的语料进行多维的词向量的转换;
在一个示例性实施例中,可以采用glove对语料进行词向量转换。glove训练后的词向量可以选取想要的维度数目,可以对比了不同大小的维度的词向量,以便后续获得一个比较好的聚类结果。
步骤102、利用预先获取的PIP(Pairwise Inner Product,双内积)损失函数,确定词向量的特征维度;
在一个示例性实施例中,语料转换为词向量其中的一个难点在于如何确立特征维度,如果使用了word2vec方式,需要考虑到字与字之间的关联,可以基于word embedding(word2vec的本质是word embedding)的酉不变性质,使用PIP损失函数来确定词向量的特征维度。
在一个示例性实施例中,所述损失信息是通过预先获取的双内积PIP损失函数确定的,其中PIP损失的计算表达式如下,包括:
f(x,y)=‖xxT-yyT
其中,y=xU,UUT=UTU=I;
其中,x为给定数据训练的词向量,y为理想下的词向量,U为矩阵,I为单位矩阵;
其中,
Figure BDA0002494030930000041
Figure BDA0002494030930000042
其中,d为理想情况下的维度,k是实际选择的维度,α由词向量方法决定的,λ为M的奇异值,共现矩阵为
Figure BDA0002494030930000043
其中矩阵Z的奇异值独立同分布,均值为0,方差为σ,共现矩阵M为glove之后的词向量矩阵。
在上述表达式中,
Figure BDA0002494030930000044
为偏差;
Figure BDA0002494030930000045
为噪音。
步骤103、按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
在一个示例性实施例中,聚类分析可以采用相关技术中的聚类算法,或者,采用本申请实施例提供的方法,适用于数据量较大的情况。
在一个示例性实施例中,所述按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息,包括:
获取基于广义双曲分布的模型;
利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析,得到以密度信息进行标记的词向量的分布信息。
广义双曲分布具有对对称、非对称、以及对异常值兼容的特性,在一些条件下,广义双曲分布近似为高斯分布或者T分布。
利用广义双曲分布模型的特性进行聚类分析,便于对大数据进行处理,提高数据的处理效率。
步骤104、根据所述词向量的分布信息,控制对所述语料的标注操作。
在一个示例性实施例中,聚类之后取密度最高的多个点进行标注,由于密度高的位置对应的词向量具有特征性,即该词向量的特征性要高于其他词向量,通过对具有特征性的词向量,达到有选择性的标注的目的的同时,还能覆盖大部分词向量的特征。
在一个示例性实施例中,所述根据所述词向量的分布信息,控制对所述语料的标注操作,包括:
根据所述词向量分布信息,选择密度最高的N处的词向量作为第一轮标注操作对象,其中N为正整数;
在得到第一轮标注操作的结果后,控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习,得到深度学习模型对词向量的标注结果;
根据所述深度学习模型对词向量的标注结果,对词向量进行聚类分析,得到新的分布信息;
选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象;
在得到第二轮标注操作的结果,控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习,得到预测的语料标签。
在聚类分析之后,取密度最高的多个点进行标注,其中由于所选择的点具有特征性,可做到有选择性的标注;再基于该第一次标注结果进行标注后,再次放回深度学习模型进行再次分类,取分类后的难分割点(边界点)进行再次标注,将第二次标注之后获得的预测标签可作为最终标签使用,用于进行语料的通用语言模型训练。
本申请实施例提供的方法,对获取到的语料进行多维的词向量的转换,通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度,按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息,根据所述词向量的分布信息,控制对所述语料的标注操作,实现通过计算损失信息达到语料模型的自适应目的,有效提高标注操作的效率。
下面以本申请实施例提供的方法进行说明:
图2为本申请实施例提供的自适应语言模型的处理方法的流程图。如图2所示,图2所示方法包括:
步骤201、搜索语料;
利用网络爬虫从预设的网站下载语料;
步骤202、语料的词向量转换;
与相关技术中将语料转换为数字向量不同,本申请实施例中将语料转换为词向量,以保存字词之间的关联关系。
步骤203、选取合适的词向量维度;
可以利用PIP损失函数计算获取到的词向量与理论值确定的词向量的损失信息,来确定词向量的维度。
步骤204、基于广义双曲分布模型进行聚类;
通过聚类分析来获取词向量的分布信息,根据分布的密度,确定词向量的特征所集中的位置,并基于所集中的位置,确定特征点;
步骤205、对聚类中得到的特征点进行第一轮标注;
该步骤中实现对具有普适性的特征的词向量进行标注,达到覆盖大多数词向量的目的;
步骤206、进行半监督学习后取特征点进行第二轮标注;
该步骤所取的特征点是对在第一轮标注中所遗漏的特征进行选择,从而达到全面覆盖的面对;
步骤207、将所有点再次进行半监督学习后可得到预测的语料标签
步骤208、对训练集进行通用模型训练
本申请实施例提供的方法,结合主动学习和自适应算法大大减少了语言模型训练的成本,提高语言模型的训练效率和准确性。
图3为本申请实施例提供的自适应语言模型的调整方法的流程图。如图3所示,图3所示方法包括:
在外部通过输入接口输入语料后,可以通过语言模型应用界面完成对语料的处理,将处理结果通过输出接口输出;
在输出处理结果后,如果检测到对处理结果的修正,可以将修正信息反馈卡给用户模型;以便语言模型应用界面后续可以结合用户模型和通用训练模型为用户提供个性化的管理需要。
自适应模型利用了最大后验概率算法(Maximum a Posteriori,MAP)。通用模型训练后可获得相应的参数,语言模型自适应就是在获得新的观测数据后重新估计模型参数集。MAP理论就是获得是后验概率可达到最大的模型参数集。该过程有三个原则:
自适应应该尽可能多的改正由背景语言模型带来的错误;
自适应需适当,因为太剧烈的自适应会使得整个语言偏离通用模型太多,甚至会破坏整个语言模型;
太缓慢的自适应会影响语言模型的使用,因此自适应必须足够快速。
做到有选择的自适应:有些用户在过程中修改了其中的书写错误,但因语言模型本身准确性高,因此没必要对整体做相应的修改;
在用户模型中,输入的作为自适应的语料还是太少,因此有必要将用户输入语料加权重才能起到效果;
若每次更新只是增加某个新词,因此重新修改模型消耗太大,所以当需修改的单元已存在在通用模型的情况下,只以该次做自适应。
图4为本申请实施例提供的语料信息的处理装置图。如图4所示,图4所示方法包括:
获取模块,被设置为对获取到的语料进行多维的词向量的转换;
确定模块,被设置为通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;
聚类模块,被设置为按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
控制模块,被设置为根据所述词向量的分布信息,控制对所述语料的标注操作。
在一个示例性实施例中,所述损失信息是通过预先获取的PIP损失函数确定的,其中PIP损失的计算表达式如下,包括:
f(x,y)=‖xxT-yyT
其中,y=xU,UUT=UTU=I;
其中,x为给定数据训练的词向量,y为理想下的词向量,U为矩阵,I为单位矩阵;
其中,
Figure BDA0002494030930000081
Figure BDA0002494030930000082
其中,d为理想情况下的维度,k是实际选择的维度,α由词向量装置决定的,λ为M的奇异值,共现矩阵为
Figure BDA0002494030930000083
其中矩阵Z的奇异值独立同分布,均值为0,方差为σ,共现矩阵M为glove之后的词向量矩阵。
在一个示例性实施例中,所述聚类模块包括:
获取单元,被设置为获取基于广义双曲分布的模型;
分析单元,被设置为利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析,得到以密度信息进行标记的词向量的分布信息。
在一个示例性实施例中,所述控制模块包括:
第一选择单元,被设置为根据所述词向量分布信息,选择密度最高的N处的词向量作为第一轮标注操作对象,其中N为正整数;
第一控制单元,被设置为在得到第一轮标注操作的结果后,控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习,得到深度学习模型对词向量的标注结果;
聚类单元,用于根据所述深度学习模型对词向量的标注结果,对词向量进行聚类分析,得到新的分布信息;
第二选择单元,被设置为选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象;
第二控制单元,被设置为在得到第二轮标注操作的结果,控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习,得到预测的语料标签。
本申请实施例提供的装置,对获取到的语料进行多维的词向量的转换,通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度,按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息,根据所述词向量的分布信息,控制对所述语料的标注操作,实现通过计算损失信息达到语料模型的自适应目的,有效提高标注操作的效率。
一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上文任一项中所述的方法。
一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上文任一项中所述的方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种语料信息的处理方法,包括:
对获取到的语料进行多维的词向量的转换;
通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;
按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
根据所述词向量的分布信息,控制对所述语料的标注操作。
2.根据权利要求1所述的方法,其特征在于,所述损失信息是通过预先获取的双内积PIP损失函数确定的,其中PIP损失的计算表达式如下,包括:
f(x,y)=‖xxT-yyT
其中,y=xU,UUT=UTU=I;
其中,x为给定数据训练的词向量,y为理想下的词向量,U为矩阵,I为单位矩阵;
其中,
Figure FDA0002494030920000011
Figure FDA0002494030920000012
其中,d为理想情况下的维度,k是实际选择的维度,α由词向量方法决定的,λ为M的奇异值,共现矩阵为
Figure FDA0002494030920000013
其中矩阵Z的奇异值独立同分布,均值为0,方差为σ,共现矩阵M为glove之后的词向量矩阵。
3.根据权利要求1所述的方法,其特征在于,所述按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息,包括:
获取基于广义双曲分布的模型;
利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析,得到以密度信息进行标记的词向量的分布信息。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据所述词向量的分布信息,控制对所述语料的标注操作,包括:
根据所述词向量分布信息,选择密度最高的N处的词向量作为第一轮标注操作对象,其中N为正整数;
在得到第一轮标注操作的结果后,控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习,得到深度学习模型对词向量的标注结果;
根据所述深度学习模型对词向量的标注结果,对词向量进行聚类分析,得到新的分布信息;
选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象;
在得到第二轮标注操作的结果,控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习,得到预测的语料标签。
5.一种语料信息的处理装置,包括:
获取模块,被设置为对获取到的语料进行多维的词向量的转换;
确定模块,被设置为通过计算所述词向量与预先获取的理论词向量的损失信息,确定所述词向量的特征维度;
聚类模块,被设置为按照所述特征维度,对词向量进行聚类分析,得到词向量的分布信息;
控制模块,被设置为根据所述词向量的分布信息,控制对所述语料的标注操作。
6.根据权利要求5所述的装置,其特征在于,所述损失信息是通过预先获取的双内积PIP损失函数确定的,其中PIP损失的计算表达式如下,包括:
f(x,y)=‖xxT-yyT
其中,y=xU,UUT=UTU=I;
其中,x为给定数据训练的词向量,y为理想下的词向量,U为矩阵,I为单位矩阵;
其中,
Figure FDA0002494030920000031
Figure FDA0002494030920000032
其中,d为理想情况下的维度,k是实际选择的维度,α由词向量装置决定的,λ为M的奇异值,共现矩阵为
Figure FDA0002494030920000033
其中矩阵Z的奇异值独立同分布,均值为0,方差为σ,共现矩阵M为glove之后的词向量矩阵。
7.根据权利要求5所述的装置,其特征在于,所述聚类模块包括:
获取单元,被设置为获取基于广义双曲分布的模型;
分析单元,被设置为利用基于广义双曲分布的模型对词向量的特征维度进行聚类分析,得到以密度信息进行标记的词向量的分布信息。
8.根据权利要求5至7任一所述的装置,其特征在于,所述控制模块包括:
第一选择单元,被设置为根据所述词向量分布信息,选择密度最高的N处的词向量作为第一轮标注操作对象,其中N为正整数;
第一控制单元,被设置为在得到第一轮标注操作的结果后,控制预先设置的深度学习模型根据第一轮标注操作的操作结果执行半监督学习,得到深度学习模型对词向量的标注结果;
聚类单元,用于根据所述深度学习模型对词向量的标注结果,对词向量进行聚类分析,得到新的分布信息;
第二选择单元,被设置为选择所述新的分布信息中符合边界点的判断条件的词向量作为第二轮标注操作对象;
第二控制单元,被设置为在得到第二轮标注操作的结果,控制预先设置的深度学习模型根据第二轮标注操作的操作结果执行半监督学习,得到预测的语料标签。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至4任一项中所述的方法。
CN202010413342.1A 2020-05-15 2020-05-15 一种语料信息的处理方法和装置 Active CN111737456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010413342.1A CN111737456B (zh) 2020-05-15 2020-05-15 一种语料信息的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010413342.1A CN111737456B (zh) 2020-05-15 2020-05-15 一种语料信息的处理方法和装置

Publications (2)

Publication Number Publication Date
CN111737456A true CN111737456A (zh) 2020-10-02
CN111737456B CN111737456B (zh) 2024-08-20

Family

ID=72647211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010413342.1A Active CN111737456B (zh) 2020-05-15 2020-05-15 一种语料信息的处理方法和装置

Country Status (1)

Country Link
CN (1) CN111737456B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107480125A (zh) * 2017-07-05 2017-12-15 重庆邮电大学 一种基于知识图谱的关系链接方法
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和系统
CN110197389A (zh) * 2019-03-04 2019-09-03 腾讯科技(深圳)有限公司 一种用户识别方法及装置
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110427480A (zh) * 2019-06-28 2019-11-08 平安科技(深圳)有限公司 个性化文本智能推荐方法、装置及计算机可读存储介质
CN110598207A (zh) * 2019-08-14 2019-12-20 华南师范大学 一种词向量获取方法、装置及存储介质
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110838021A (zh) * 2019-10-15 2020-02-25 北京三快在线科技有限公司 转化率预估方法、装置、电子设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN104778204A (zh) * 2015-03-02 2015-07-15 华南理工大学 基于两层聚类的多文档主题发现方法
CN106611052A (zh) * 2016-12-26 2017-05-03 东软集团股份有限公司 文本标签的确定方法及装置
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN107480125A (zh) * 2017-07-05 2017-12-15 重庆邮电大学 一种基于知识图谱的关系链接方法
CN110197389A (zh) * 2019-03-04 2019-09-03 腾讯科技(深圳)有限公司 一种用户识别方法及装置
CN109977226A (zh) * 2019-03-14 2019-07-05 南京邮电大学 基于卷积神经网络的高精度文本分类方法和系统
CN110427480A (zh) * 2019-06-28 2019-11-08 平安科技(深圳)有限公司 个性化文本智能推荐方法、装置及计算机可读存储介质
CN110390103A (zh) * 2019-07-23 2019-10-29 中国民航大学 基于双编码器的短文本自动摘要方法及系统
CN110598207A (zh) * 2019-08-14 2019-12-20 华南师范大学 一种词向量获取方法、装置及存储介质
CN110647919A (zh) * 2019-08-27 2020-01-03 华东师范大学 一种基于k-均值聚类和胶囊网络的文本聚类方法及系统
CN110838021A (zh) * 2019-10-15 2020-02-25 北京三快在线科技有限公司 转化率预估方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯冲等: "基于词向量语义分类的微博实体链接方法", 《自动化学报》, vol. 42, no. 6, 21 July 2016 (2016-07-21), pages 915 - 922 *

Also Published As

Publication number Publication date
CN111737456B (zh) 2024-08-20

Similar Documents

Publication Publication Date Title
US20210382937A1 (en) Image processing method and apparatus, and storage medium
CN114492363B (zh) 一种小样本微调方法、系统及相关装置
CN110502976B (zh) 文本识别模型的训练方法及相关产品
Yang et al. Channel pruning based on convolutional neural network sensitivity
CN111914085A (zh) 文本细粒度情感分类方法、系统、装置及存储介质
US10747961B2 (en) Method and device for identifying a sentence
US20210200952A1 (en) Entity recognition model training method and entity recognition method and apparatus using them
CN113435509A (zh) 基于元学习的小样本场景分类识别方法及系统
CN113541834B (zh) 一种异常信号半监督分类方法、系统、数据处理终端
CN113822264A (zh) 一种文本识别方法、装置、计算机设备和存储介质
CN113837379A (zh) 神经网络的训练方法及装置、计算机可读存储介质
CN114065840A (zh) 一种基于集成学习的机器学习模型调整方法及设备
Haffner Scaling large margin classifiers for spoken language understanding
CN117591547B (zh) 数据库的查询方法、装置、终端设备以及存储介质
CN112446405A (zh) 一种家电客服的用户意图引导方法及智能家电
Fan Supervised binary hash code learning with jensen shannon divergence
CN114299304A (zh) 一种图像处理方法及相关设备
CN117932058A (zh) 基于文本分析的情绪识别方法、装置及设备
CN117390454A (zh) 基于多域自适应数据闭环的数据标注方法及系统
CN111737456B (zh) 一种语料信息的处理方法和装置
CN116467451A (zh) 一种文本分类方法、装置、存储介质以及电子设备
CN114254622B (zh) 一种意图识别方法和装置
CN114626485A (zh) 一种基于改进knn算法的数据标签分类方法及装置
CN116450781A (zh) 问答的处理方法及装置
CN115512374A (zh) 针对表格文本的深度学习特征提取分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant