CN111177403A - 样本数据的处理方法和装置 - Google Patents

样本数据的处理方法和装置 Download PDF

Info

Publication number
CN111177403A
CN111177403A CN201911293462.6A CN201911293462A CN111177403A CN 111177403 A CN111177403 A CN 111177403A CN 201911293462 A CN201911293462 A CN 201911293462A CN 111177403 A CN111177403 A CN 111177403A
Authority
CN
China
Prior art keywords
word
information
similarity
training
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911293462.6A
Other languages
English (en)
Other versions
CN111177403B (zh
Inventor
张东
卢亿雷
刘成鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike Beijing Data Technology Co ltd
Original Assignee
Enyike Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike Beijing Data Technology Co ltd filed Critical Enyike Beijing Data Technology Co ltd
Priority to CN201911293462.6A priority Critical patent/CN111177403B/zh
Publication of CN111177403A publication Critical patent/CN111177403A/zh
Application granted granted Critical
Publication of CN111177403B publication Critical patent/CN111177403B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种样本数据的处理方法和装置。所述方法包括:获取样本数据中预测词的特征信息;计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词。

Description

样本数据的处理方法和装置
技术领域
本申请实施例涉及信息处理领域,尤指一种样本数据的处理方法和装置。
背景技术
知识图谱是人工智能应用不可或缺的基础资源,在语义搜索、问答系统、个性化推荐等互联网应用中占有重要地位。知识图谱的构建过程分为三部分:信息抽取、知识融合和知识加工,其中,信息抽取涉及到的关键技术包括:实体抽取、属性抽取和关系抽取。在数据量充足的情况下,目前比较流行的信息抽取技术是利用深度学习神经网络来抽取语料中的实体、属性和关系构建三元组。但是在领域知识图谱中数据比较缺乏,深度学习模型不适用的情况下,构建知识图谱成为行业领域的难点。
发明内容
为了解决上述任一技术问题,本申请实施例提供了一种样本数据的处理方法和装置。
为了达到本申请实施例目的,本申请实施例提供了一种样本数据的处理方法,包括:
获取样本数据中预测词的特征信息;
计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;
对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;
根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词。
在一个示例性实施例中,所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息,包括:
获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值;
判断所述差值是否大于预先设置的长度阈值,得到判断结果;
如果判断结果为大于所述长度阈值,则利用预先获取的余弦相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息;
如果判断结果为小于或等于所述长度阈值,则利用预先获取的Jaccard相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息。
在一个示例性实施例中,所述对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息,包括:
在利用余弦相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个;对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理,得到所述训练词与所述预测词的相似度信息;
在利用Jaccard相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理,得到所述训练词与所述预测词的相似度信息。
在一个示例性实施例中,所述根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词之后,还包括:
获取对候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息;
根据所述候选词的标注结果,确定所述预测词的类别信息。
在一个示例性实施例中,所述根据所述候选词的标注结果,确定所述预测词的类别信息,包括:
按照类别信息对应所述候选词进行分类,确定同一类别信息对应的候选词的总数;
根据所述同一类别信息对应的候选词的总数,从所述候选词的类别信息中,选择满足预先设置的高使用率的判断策略的类别信息,作为所述预测词的类别信息。
一种样本数据的处理装置,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:
获取样本数据中预测词的特征信息;
计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;
对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;
根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息的操作,包括:
获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值;
判断所述差值是否大于预先设置的长度阈值,得到判断结果;
如果判断结果为大于所述长度阈值,则利用预先获取的余弦相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息;
如果判断结果为小于或等于所述长度阈值,则利用预先获取的Jaccard相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息的操作,包括:
在利用余弦相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个;对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理,得到所述训练词与所述预测词的相似度信息;
在利用Jaccard相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理,得到所述训练词与所述预测词的相似度信息。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词的操作之后,所述处理器调用所述存储器中的计算机程序还实现如下操作,包括:
获取对候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息;
根据所述候选词的标注结果,确定所述预测词的类别信息。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述根据所述候选词的标注结果,确定所述预测词的类别信息的操作,包括:
按照类别信息对应所述候选词进行分类,确定同一类别信息对应的候选词的总数;
根据所述同一类别信息对应的候选词的总数,从所述候选词的类别信息中,选择满足预先设置的高使用率的判断策略的类别信息,作为所述预测词的类别信息。
本申请实施例提供的实施例,获取样本数据中预测词的特征信息,计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息,对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息,再根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词,基于预测词的特征信息与训练词的特征信息进行相似度计算,从而确定相似词,提高确定相似词的准确率,为构建知识图谱提供数据积累。
本申请实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请实施例技术方案的进一步理解,并且构成说明书的一部分,与本申请实施例的实施例一起用于解释本申请实施例的技术方案,并不构成对本申请实施例技术方案的限制。
图1为本申请实施例提供的样本数据的处理方法的流程图;
图2为本申请实施例提供的样本数据的处理装置的结构图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请实施例的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请实施例中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请实施例提供的样本数据的处理方法的流程图。图1所示方法包括:
步骤101、获取样本数据中预测词的特征信息;
在一个示例性实施例中,通过预先设置的语料库中,查询所述预测词的解释信息和/或描述信息。
以预测词为“公司”为例进行说明,
1、开放分类:组织;
2、基本信息可以包括:
属性:以营利为目的的企业法人;
曾用名:公班衙;
类型:有限责任公司和股份有限公司;
3、描述信息可以包括:公司是依照公司法在中国境内设立的是以营利为目的的企业法人,包括有限责任公司和股份有限公司。它是适应市场经济社会化大生产的需要而形成的一种企业组织形式。
公司是一个实体,开放分类、描述信息、基本信息中的键值对均可以作为该词的特征。
步骤102、计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;
在一个示例性实施例中,由于特征信息是对训练词的具体描述和解释,以特征信息为单位,计算训练词与预测词的相似度,更加准确地确定词语间的相关性。
步骤103、对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;
在计算特征信息的相似度时,计算同一特征信息的相似度,以便更加确定预测词与训练词的相似性;在得到同一个训练词的每个特征信息的相似度后,通过加权计算,确定该训练词与预测词的相似度信息。
在一个示例性实施例中,每个特征信息的相似度信息是通过如下方式计算的,包括::
获取每个特征信息的特征名称和特征值;将特征名称和特征值作为一组特征信息;
计算同一特征的两组特征信息的特征名称的相似度;以及,计算同一特征的两组特征信息的特征值的相似度;
根据所述特征名称的相似度和特征值的相似度,确定特征信息的相似度信息。
利用特征名称和特征值的相似度共同来确定特征信息的相似度,可以提高特征信息的相似度的计算精准度。
步骤104、根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词;
在一个示例性实施例中,可以根据相似度的数值的大小,按照从大到小的顺序,选择数值最大的K个训练词作为候选词。
本申请实施例提供的方法实施例,获取样本数据中预测词的特征信息,计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息,对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息,再根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词,基于预测词的特征信息与训练词的特征信息进行相似度计算,从而确定相似词,提高确定相似词的准确率,为构建知识图谱提供数据积累。
在一个示例性实施例中,所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息,包括:
获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值;
判断所述差值是否大于预先设置的长度阈值,得到判断结果;
如果判断结果为大于所述长度阈值,则利用预先获取的余弦相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息;
如果判断结果为小于或等于所述长度阈值,则利用预先获取的Jaccard相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息。
在一个示例性实施例中,所述对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息,包括:
在利用余弦相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个;对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理,得到所述训练词与所述预测词的相似度信息;
在利用Jaccard相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理,得到所述训练词与所述预测词的相似度信息。
通过特征信息的内容长度,选择对应的计算方式,可以有效提高计算的准确性。
发明人发现,使用MEMM进行信息抽取操作的识别精度有待提高的原因在于,MEMM针对每个观测值都进行单独标记,无法从全局角度考虑标记之间的关系,因而所得到的标记结果通常是局部最优值,同时,这种方式还可能导致“标记偏置”问题,即当前的标记状态与观测值没有关系,导致识别精度的下降。
为解决领域知识图谱中,因数据量缺乏,无法使用深度模型精确抽取实体、属性、关系的问题,本申请实施例提出通过机器学习的方法将序列标注问题转换成多分类问题,有效提升分类的速度和精度,减小误差,从而提升信息抽取的准确率。
对于领域知识图谱的构建,由于领域数据的缺乏,无法通过深度模型精准的抽取语料中的实体、属性和关系,信息抽取是构建知识图谱过程中最关键的一部分,本发明通过机器学习的方法将序列标注问题转换成多分类问题,利用K最近邻(k-Nearest Neighbor,KNN)分类算法完成对预测词的标注操作。
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法的优点是:①简单,易于理解,易于实现,无需估计参数;②特别适合于多分类问题(multi-modal,对象具有多个类别标签)。
在一个示例性实施例中,所述根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词之后,还包括:
获取对候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息;
根据所述候选词的标注结果,确定所述预测词的类别信息。
在一个示例性实施例中,训练数据中的K个候选词均已完成标注操作,完成了类别信息的确定,通过读取K个候选词的标注结果即可,其中K为大于等于2的整数。
由于K个候选词与预测词为相似词,则K个候选词的标注结果也同样适用于所述预测词,借助K个候选词的标注结果,完成对预测词的标注操作。
在一个示例性实施例中,所述根据所述候选词的标注结果,确定所述预测词的类别信息,包括:
按照类别信息对应所述候选词进行分类,确定同一类别信息对应的候选词的总数;
根据所述同一类别信息对应的候选词的总数,从所述候选词的类别信息中,选择满足预先设置的高使用率的判断策略的类别信息,作为所述预测词的类别信息。
确定K个候选词中哪个类别的词数最多,就作为该预测词对应的类别信息,通过将序列标注问题转换成多分类问题,利用K最近邻(k-Nearest分类算法的特征完成标注操作,即一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别的特征。
通过获取对所述K个候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息,根据所述K个候选词的标注结果,确定所述预测词的类别信息,通过将序列标注问题转换成多分类问题,有效提升分类的速度和精度,减小误差,从而提升信息抽取的准确率;另外,实现复杂度简单,易于理解,易于实现,无需估计参数,适合于多分类应用场景。
图2为本申请实施例提供的一种基于K邻近算法的样本数据的处理方法的流程图。图2所示方法包括:
步骤201、构建预测词对应的训练语料,其中训练语料中标注有实体、属性和关系。
在训练语料中标注出定义好的实体类别词,属性词(属性也是一种名词性关系),来作为训练算法的数据;
例如,北京是中国的首都,其中北京和中国的实体类别是地名,首都是属性词。
步骤202、获取预测词的特征信息。
在一个示例性实施例中,预测词的特征信息是利用从语料中获取的实体词,在预先存储的语料库(如,互动百科)中获取该实体词的描述信息,即得到该词的特征信息
以实体词为“公司”为例,公司是一个实体,开放分类、描述信息、基本信息中的键值对均可以作为该词的特征;
步骤203、判断同一特征中的特征词的长度相差是否大于预先设置的第一个数阈值;
在一个示例性实施例中,个数阈值可以设置为2;
如果是,则执行步骤204;否则,执行步骤206;
在一个示例性实施例中,实体词的特征信息可以采用k-v键值对来表示,则两个词的基本信息中k和v都可以作为特征,两个词的k进行比较,v进行比较;
步骤204、使用现有语料对预训练FastText的词向量进行微调得到最终的词向量,并计算每个特征词的逆向文件频率值(Inverse Document Frequency,IDF),使用FastText词向量计算余弦相似度,利用对应词的IDF加权并取平均,再执行步骤205。
步骤205、对词长度相差大于2的特征,也就是需要用FastText向量计算相似度的特征,计算预测词和训练数据中的每个词的每个特征相似度的均值、方差和标准差;其中,均值、方差和标准差是用来对训练数据中的词的特征的相似度进行高斯归一化,再执行步骤209。
步骤206、使用jaccard计算相似度,并取平均,再执行步骤207。
Jaccard主要是得到两个长度相近的词的相同部分,相同部分越多,词越相近;其中,词的长度相差比较大就用向量计算相似度,比如:中华和中华人民共和国,这两个词就不能使用jaccard来计算相似度。
步骤207、对词长度相差小于等于2的特征也就是需要用jaccard相似度来计算,对预测词和训练数据中每个词的对应特征的相似度进行最大值最小值归一化,再执行步骤208。
步骤208、计算每个词的每个特征相似度的加权和并排序,选择前K个词作为候选词。
其中,加权和所使用的权值可以通过网格搜索并交叉验证获得。
步骤209、比较候选词中同一类别的词数最多中的至少两个类别,将所述至少两个类别作为该预测词的类别信息。
本申请实施例提供的方法,在领域数据缺乏深度模型不适用的情况下,将序列标注问题转换为多分类问题用其他的分类算法来进行信息抽取构建领域知识图谱,通过在复现KNN算法的过程中对算法进行了改进,有效提升了算法的分类准确率和信息抽取的准确率。
一种样本数据的处理装置,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:
获取样本数据中预测词的特征信息;
计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;
对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;
根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息的操作,包括:
获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值;
判断所述差值是否大于预先设置的长度阈值,得到判断结果;
如果判断结果为大于所述长度阈值,则利用预先获取的余弦相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息;
如果判断结果为小于或等于所述长度阈值,则利用预先获取的Jaccard相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息的操作,包括:
在利用余弦相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个;对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理,得到所述训练词与所述预测词的相似度信息;
在利用Jaccard相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理,得到所述训练词与所述预测词的相似度信息。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词的操作之后,所述处理器调用所述存储器中的计算机程序还实现如下操作,包括:
获取对候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息;
根据所述候选词的标注结果,确定所述预测词的类别信息。
在一个示例性实施例中,所述处理器调用所述存储器中的计算机程序以实现所述根据所述候选词的标注结果,确定所述预测词的类别信息的操作,包括:
按照类别信息对应所述候选词进行分类,确定同一类别信息对应的候选词的总数;
根据所述同一类别信息对应的候选词的总数,从所述候选词的类别信息中,选择满足预先设置的高使用率的判断策略的类别信息,作为所述预测词的类别信息。
本申请实施例提供的装置实施例,获取样本数据中预测词的特征信息,计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息,对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息,再根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词,基于预测词的特征信息与训练词的特征信息进行相似度计算,从而确定相似词,提高确定相似词的准确率,为构建知识图谱提供数据积累。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

Claims (10)

1.一种样本数据的处理方法,其特征在于,包括:
获取样本数据中预测词的特征信息;
计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;
对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;
根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词。
2.根据权利要求1所述的方法,其特征在于,所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息,包括:
获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值;
判断所述差值是否大于预先设置的长度阈值,得到判断结果;
如果判断结果为大于所述长度阈值,则利用预先获取的余弦相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息;
如果判断结果为小于或等于所述长度阈值,则利用预先获取的Jaccard相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息。
3.根据权利要求2所述的方法,其特征在于,所述对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息,包括:
在利用余弦相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个;对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理,得到所述训练词与所述预测词的相似度信息;
在利用Jaccard相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理,得到所述训练词与所述预测词的相似度信息。
4.根据权利要求1所述的方法,其特征在于,所述根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词之后,还包括:
获取对候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息;
根据所述候选词的标注结果,确定所述预测词的类别信息。
5.根据权利要求4所述的方法,其特征在于,所述根据所述候选词的标注结果,确定所述预测词的类别信息,包括:
按照类别信息对应所述候选词进行分类,确定同一类别信息对应的候选词的总数;
根据所述同一类别信息对应的候选词的总数,从所述候选词的类别信息中,选择满足预先设置的高使用率的判断策略的类别信息,作为所述预测词的类别信息。
6.一种样本数据的处理装置,其特征在于,包括处理器和存储器,其中所述存储器存储有计算机程序,所述处理器调用所述存储器中的计算机程序以实现如下操作,包括:
获取样本数据中预测词的特征信息;
计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息;
对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息;
根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词。
7.根据权利要求6所述的装置,其特征在于,所述处理器调用所述存储器中的计算机程序以实现所述计算所述预测词的每个特征信息和预先获取的训练数据中的每个训练词的每个特征信息的相似度信息的操作,包括:
获取在同一特征信息下预测词对应的内容长度与训练词对应的内容长度的差值;
判断所述差值是否大于预先设置的长度阈值,得到判断结果;
如果判断结果为大于所述长度阈值,则利用预先获取的余弦相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息;
如果判断结果为小于或等于所述长度阈值,则利用预先获取的Jaccard相似度的计算策略,对同一特征信息上预测词对应的内容和训练词对应的内容进行计算,确定所述预测词和所述训练词在同一特征信息的相似度信息。
8.根据权利要求7所述的装置,其特征在于,所述处理器调用所述存储器中的计算机程序以实现所述对同一训练词的每个特征信息的相似度进行计算,确定所述训练数据中每个训练词与所述预测词的相似度信息的操作,包括:
在利用余弦相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,其中所述相似度信息包括每个特征信息的相似度的均值、方差和标准差中的至少一个;对同一个训练词的每个特征信息的相似度信息进行高斯归一化处理,得到所述训练词与所述预测词的相似度信息;
在利用Jaccard相似度的计算策略确定同一特征信息的相似度时,获取同一个训练词的每个特征信息的相似度信息,对同一个训练词的每个特征信息的相似度信息进行最大值最小值归一化处理,得到所述训练词与所述预测词的相似度信息。
9.根据权利要求6所述的装置,其特征在于,所述处理器调用所述存储器中的计算机程序以实现所述根据每个训练词的相似度信息,从所述训练数据中的训练词中,确定符合预先设置的相似词的判断策略的候选词的操作之后,所述处理器调用所述存储器中的计算机程序还实现如下操作,包括:
获取对候选词的标注结果,其中所述标注结果包括所述候选词对应的类别信息;
根据所述候选词的标注结果,确定所述预测词的类别信息。
10.根据权利要求9所述的装置,其特征在于,所述处理器调用所述存储器中的计算机程序以实现所述根据所述候选词的标注结果,确定所述预测词的类别信息的操作,包括:
按照类别信息对应所述候选词进行分类,确定同一类别信息对应的候选词的总数;
根据所述同一类别信息对应的候选词的总数,从所述候选词的类别信息中,选择满足预先设置的高使用率的判断策略的类别信息,作为所述预测词的类别信息。
CN201911293462.6A 2019-12-16 2019-12-16 样本数据的处理方法和装置 Active CN111177403B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911293462.6A CN111177403B (zh) 2019-12-16 2019-12-16 样本数据的处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911293462.6A CN111177403B (zh) 2019-12-16 2019-12-16 样本数据的处理方法和装置

Publications (2)

Publication Number Publication Date
CN111177403A true CN111177403A (zh) 2020-05-19
CN111177403B CN111177403B (zh) 2023-06-23

Family

ID=70653955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911293462.6A Active CN111177403B (zh) 2019-12-16 2019-12-16 样本数据的处理方法和装置

Country Status (1)

Country Link
CN (1) CN111177403B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135429A1 (zh) * 2020-07-28 2021-07-08 平安科技(深圳)有限公司 基于知识图谱的健康信息推荐方法、装置、设备及介质
CN114970525A (zh) * 2022-06-14 2022-08-30 城云科技(中国)有限公司 一种文本同事件识别方法、装置及应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154033A1 (en) * 2015-11-30 2017-06-01 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
CN106897309A (zh) * 2015-12-18 2017-06-27 阿里巴巴集团控股有限公司 一种相似词的聚合方法和装置
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109582787A (zh) * 2018-11-05 2019-04-05 远光软件股份有限公司 一种火力发电领域语料数据的实体分类方法及装置
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154033A1 (en) * 2015-11-30 2017-06-01 Samsung Electronics Co., Ltd. Speech recognition apparatus and method
CN106897309A (zh) * 2015-12-18 2017-06-27 阿里巴巴集团控股有限公司 一种相似词的聚合方法和装置
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109582787A (zh) * 2018-11-05 2019-04-05 远光软件股份有限公司 一种火力发电领域语料数据的实体分类方法及装置
CN110196982A (zh) * 2019-06-12 2019-09-03 腾讯科技(深圳)有限公司 上下位关系抽取方法、装置及计算机设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021135429A1 (zh) * 2020-07-28 2021-07-08 平安科技(深圳)有限公司 基于知识图谱的健康信息推荐方法、装置、设备及介质
CN114970525A (zh) * 2022-06-14 2022-08-30 城云科技(中国)有限公司 一种文本同事件识别方法、装置及应用
CN114970525B (zh) * 2022-06-14 2023-06-27 城云科技(中国)有限公司 一种文本同事件识别方法、装置及可读存储介质

Also Published As

Publication number Publication date
CN111177403B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
US9536444B2 (en) Evaluating expert opinions in a question and answer system
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
CN112632269A (zh) 一种文档分类模型训练的方法和相关装置
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CN111310074A (zh) 兴趣点的标签优化方法、装置、电子设备和计算机可读介质
CN111177403B (zh) 样本数据的处理方法和装置
CN107688822B (zh) 基于深度学习的新增类别识别方法
US20180260396A1 (en) Method and system for mapping attributes of entities
CN116662555B (zh) 一种请求文本处理方法、装置、电子设备及存储介质
CN114912458A (zh) 一种情感分析方法、装置和计算机可读介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN114254622B (zh) 一种意图识别方法和装置
CN111178349A (zh) 一种图像识别方法、装置、设备及存储介质
CN111191689B (zh) 样本数据的处理方法和装置
CN113688263B (zh) 用于搜索图像的方法、计算设备和存储介质
CN112905765B (zh) 一种信息处理方法及装置
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
CN114036283A (zh) 一种文本匹配的方法、装置、设备和可读存储介质
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备
CN113590747B (zh) 用于意图识别的方法以及相应的系统、计算机设备和介质
CN110399482B (zh) 文本分类方法、模型和装置
CN109726384B (zh) 评价关系的生成方法及相关装置
CN115795003A (zh) 基于聚类的新问题发现方法和装置
CN117951294A (zh) 文本分类模型的训练方法、文本分类方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant