CN110990451A - 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 - Google Patents
基于句子嵌入的数据挖掘方法、装置、设备及存储装置 Download PDFInfo
- Publication number
- CN110990451A CN110990451A CN201911121162.XA CN201911121162A CN110990451A CN 110990451 A CN110990451 A CN 110990451A CN 201911121162 A CN201911121162 A CN 201911121162A CN 110990451 A CN110990451 A CN 110990451A
- Authority
- CN
- China
- Prior art keywords
- sentence
- data
- sentence embedding
- keywords
- entity relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于句子嵌入的数据挖掘方法,包括获取示例语句,依据所述示例语句及预设语料库训练获得句子嵌入模型;获取第一种子数据,依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成第一句子嵌入向量;获取第一实体关系模板,依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系。通过此方法,可以达到在兼顾统计指标的同时,还依据语义层面表示文本相似性,使数据挖掘结果更加精确的目的。
Description
技术领域
本申请涉及文本数据挖掘领域,特别涉及一种基于句子嵌入的数据挖掘方法、装置、设备及存储装置。
背景技术
现有数据挖掘方案主要分为三大类,一是有监督方法,二是无监督方法,三是半监督方法。有监督数据挖掘方法包括基于规则的方法和基于机器学习的方法,基于规则的方法由人设计好规则模板,依据此模板进行实体关系提取,由于实体关系的复杂性,基于规则的方法的工作量很大,不适合大规模数据集,基于机器学习的方法需要大量的标注数据进行训练,由于文本的特殊性,对文本进行大量标注的代价十分高昂,因此造成了在很多行业中没有专门的标注数据供机器学习模型进行训练。无监督数据挖掘方法主要有实体聚类和关系类型词选择,实体聚类的阈值难以选择,并且无监督方法的可拓展性较差。半监督数据挖掘方法主要是基于Bootstrapping的方法,目前最常用的就是snowball方案,snowball方案依据极少量的人工种子数据就可以取得比较好的效果,并且具有很强的扩展能力。
snowball方案虽然好用,但是仍然存在一定的问题。snowball使用简单的tf-idf特征计算实体对上下文的相似性,但tf-idf特征衡量文本相似性的能力较弱。tf-idf特征主要使用统计方法计算文本相似性,不具有语义相似性。
发明内容
本申请提供一种基于句子嵌入的数据挖掘方法、装置、设备及存储装置,能实现基于语义的文本相似性挖掘。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种基于句子嵌入的数据挖掘方法,包括以下步骤:
获取示例语句,所述示例语句为任意一句表达完整意义的句子,依据所述示例语句及预设语料库训练获得句子嵌入模型;
获取第一种子数据,所述第一种子数据包括至少一组正向关键词组,所述正向关键词组包括至少两个正向关键词;
依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成第一句子嵌入向量;
获取第一实体关系模板,所述第一实体关系模板用于表征所述第一种子数据的所述至少两个正向关键词的特定关系;
依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系,所述实体关系用于表征所述预设待挖掘数据集中具有与所述至少两个正向关键词同样特定关系的数据。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种数据挖掘装置,包括:
获取模块,用于获取示例语句及第一种子数据,所述示例语句为任意一句表达完整意义的句子,所述第一种子数据包括至少一组正向关键词组,所述正向关键词组包括至少两个正向关键词;
模型训练模块,用于依据所述示例语句及预设语料库训练获得句子嵌入模型;
数据挖掘模块,用于依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成第一句子嵌入向量,并
依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系,所述实体关系用于表征所述预设待挖掘数据集中具有与所述至少两个正向关键词同样特定关系的数据。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种数据挖掘设备,包括:
处理器、与所述处理器耦接的存储器,其中,所述存储器存储有用于实现上述基于句子嵌入的数据挖掘方法的程序指令;所述处理器用于执行所述存储器存储的所述程序指令以对所述待挖掘数据集进行数据挖掘。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储装置,存储有能够实现基于句子嵌入的数据挖掘方法的程序文件。
本申请的有益效果是:本发明的基于句子嵌入的数据挖掘方法、装置、设备及存储装置通过训练基于句子的嵌入模型,将语义作为特征计算的输入提取实体关系,可以在兼顾统计指标的同时,还依据语义层面表示文本相似性,使数据挖掘结果更加精确。
附图说明
图1是本发明第一实施例的基于句子嵌入的数据挖掘方法的流程示意图;
图2是本发明一种实施例的第一实体关系模板的流程示意图;
图3是本发明第二实施例的基于句子嵌入的数据挖掘方法的流程示意图;
图4是本发明一种实施例的数据挖掘装置的结构示意图;
图5是本发明一种实施例的数据挖掘设备的结构示意图;
图6是本发明一直实施例的存储装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本发明第一实施例的基于句子嵌入的数据挖掘方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:获取示例语句,所述示例语句为任意一句表达完整意义的句子,依据所述示例语句及预设语料库训练获得句子嵌入模型。
具体地,模型训练就是使用已有的数据,通过机器学习确定函数参数的过程,函数参数确定后,输出训练好的模型。步骤S101通过获取用于训练模型的示例语句,示例语句可以是任意一句表达完整意义的句子,示例语句越多,训练的模型越准确,示例语句间不需要存在联系,在一种实施例中,先可以将所述示例语句进行文本离散处理,即可以将示例语句切分为至少一个关键词,将所述示例语句结合预设语料库进行训练获得句子嵌入模型,所述预设语料库包括公共语料库、行业语料库中至少一种或多种,语料库可以是基于网络收集的大量数据形成,公共语料库可以是权威发布的报纸、杂志等,如人民日报,行业语料库可以是专业领域的权威发文库、论文库等,语料库越多,模型训练越准确。
通过训练基于句子的嵌入模型,将语义作为特征计算的输入,依据语义层面表示文本相似性,更符合文本相似度的计算。
步骤S102:获取第一种子数据,所述第一种子数据包括至少一组正向关键词组,所述正向关键词组包括至少两个正向关键词。
需要说明的是,所述第一种子数据包括一个或者多个正向关键词组,每个正向关键词组至少包括两个正向关键词,所述正向关键词是需要在预设待挖掘数据集中进行匹配并依此进行数据挖掘的关键词,在一种实施例中,所述第一种子数据的所述正向关键词组中还包括与所述至少两个正向关键词分别对应的第一属性、第二属性,如第一种子数据中的正向关键词组为“百度:北京”、“阿里巴巴:杭州”、“腾讯:深圳”,在本实施例中,与所述至少两个正向关键词分别对应的第一属性可以为company、第二属性可以为local,则所述正向关键词组可以表示为(百度、company、北京、local)、(阿里巴巴、company、杭州、local)、(腾讯、company、深圳、local),其中company为关键词“百度”、“阿里巴巴”、“腾讯”的第一属性,local为关键词“北京”、“杭州”、“深圳”的第二属性,其中,种子数据中的关键词组所表示的都是同一种关系,种子数据越多最终获取到的数据挖掘结果会越准确。
步骤S103:依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成第一句子嵌入向量。
进一步地,在步骤S103中,预设待挖掘数据集经过预处理后将所述预设待挖掘数据集中的具有与第一属性相同属性的第一关键词及具有与第二属性相同属性的第二关键词进行标记,然后将相匹配的第一关键词和第二关键词提取为待匹配关系实体,仍以上述实施例为例,根据第一种子数据中的关键词组的第一属性company、第二属性local在所述预设待挖掘数据集中获取全部符合属性company、local的关键词组成待匹配关系实体。
在另一种实施例中,所述第一种子数据还包括至少一组负向关键词组,所述负向关键词组包括至少两个负向关键词,所述负向关键词组所表示的关系与所述正向关键词组也都是同一种关系,步骤S103中“依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体”还可以将所述预设待挖掘数据集中的具有与第一属性相同属性的第一关键词及具有与第二属性相同属性的第二关键词进行标记,然后将相匹配的第一关键词和第二关键词提取为待匹配关键词,在所述待匹配关键词中过滤掉满足所述负向关键词组的关键词后获得所述待匹配关系实体。仍以上述实施例为例,可以设置负向关键词组为(字节跳动、company、杭州、local)、(网易、company、上海、local),则在所述预设待挖掘数据集中获取属性分别为company、local的关键词,然后滤掉满足所述负向关键词组(字节跳动、杭州)、(网易、上海)的关键词后获得到待匹配关系实体,。
步骤S104:获取第一实体关系模板,所述第一实体关系模板用于表征所述第一种子数据的所述至少两个正向关键词的特定关系。
在步骤S104中,在预设待挖掘数据集中可以精确匹配所述第一种子数据的所述正向关键词组中所述至少两个正向关键词,并获取所述两个正向关键词的第一上中下文语句,将所述第一上中下文语句输入到所述句子嵌入模型生成种子数据句子嵌入向量,依据所述种子数据句子嵌入向量就可以计算获得所述第一种子数据的第一实体关系模板。
本实施例中,依据所述种子数据句子嵌入向量获得所述第一种子数据中所述正向关键词组的第一实体关系模板可以采用聚类计算。
请一并参考图2所示,图2是本发明一种实施例的第一实体关系模板的流程示意图。在一种实施例中,对所述种子数据句子嵌入向量使用singlepass聚类进行聚类处理包括以下步骤:
步骤S104a:计算所述种子数据句子嵌入向量与所述第一实体关系模板的第一相似度。
具体地,依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取到精准匹配的所述正向关键词组后,提取所述正向关键词组在所述预设待挖掘数据集中的上中下文语句,如在所述预设待挖掘数据集中匹配到“依托“小度在家”等百度旗下人工智能产品“爱老驿站”首次在北京大栅栏街道落地”一句包含正向关键词组(百度、北京),则截取正向关键词组(百度、北京)的左、中、右三个上下文语句,表示为sentleft=依托“小度在家”等,sentmiddle=旗下人工智能产品“爱老驿站”首次在,sentright=大栅栏街道落地,将所述关键词组的上中下文语句嵌入句子嵌入模型生成种子数据句子嵌入向量,如将sentleft=依托“小度在家”等,sentmiddle=旗下人工智能产品“爱老驿站”首次在,sentright=大栅栏街道落地嵌入模型后,生成基于所述上中下文语句的种子数据句子嵌入向量vecleft=(0.12,0.34,0.14),vecmiddle=(0.22,0.13,0.55),vecright=(0.23,0.15,0.74)。
然后,聚类计算中分别对所述种子数据句子嵌入向量的vecleft,vecmiddle,vecright计算第一相似度。
步骤S104b:所述第一相似度是否在预设相似度范围内,若所述第一相似度在预设相似度范围内,则执行步骤S104c,若所述第一相似度不在预设相似度范围内,则执行步骤S104d。
判断所述第一相似度是否在预设相似度范围内,所述预设相似度可以人为设置。
步骤S104c:将所述种子数据句子嵌入向量添加到所述第一实体关系模板中。
若所述第一相似度在预设相似度范围内,将所述种子数据句子嵌入向量添加到所述第一实体关系模板中。
步骤S104d:生成第二实体关系模板,所述第二实体关系模板与所述第一实体关系模板替换更新为所述第一实体关系模板。
若所述第一相似度不在预设相似度范围内,则生成第二实体关系模板,所述第二实体关系模板与所述第一实体关系模板替换更新为所述第一实体关系模板。
在本实施例中,依据所述至少两个正向关键词在所述待匹配关系实体中精确匹配后,获取所述至少两个正向关键词的第一上中下文语句,即在所述待匹配关系实体中精确匹配(百度、北京)、(阿里巴巴、杭州)、(腾讯、深圳),然后分别获取各关键词组的上中下语句即第一上中下文语句,然后将(百度、北京)、(阿里巴巴、杭州)、(腾讯、深圳)在预设待挖掘数据集中的第一上中下文语句输入所述句子嵌入模型,可以生成种子数据句子嵌入向量,依据所述种子数据句子嵌入向量获得所述第一种子数据中所述正向关键词组的第一实体关系模板。
步骤S105:依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系,所述实体关系用于表征所述预设待挖掘数据集中具有与所述至少两个正向关键词同样特定关系的数据。依据所述第一句子嵌入向量、所述第一实体关系模板即可以在所述预设待挖掘数据集中提取与所述第一种子数据具有同样特定关系的实体关系。
本发明第一实施例的基于句子嵌入的数据挖掘方法通过训练基于句子的嵌入模型将预设待挖掘数据集中匹配关键词的上中下文输入句子嵌入模型,计算语义相似度,并且用户可以根据自身需求设置预设相似度,可以在兼顾统计指标的同时,还依据语义层面表示文本相似性,使数据挖掘结果更加精确。图3是本发明第二实施例的基于句子嵌入的数据挖掘方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图3所示的流程顺序为限。如图3所示,该方法包括步骤:
步骤S201:获取示例语句,所述示例语句为任意一句表达完整意义的句子,依据所述示例语句及预设语料库训练获得句子嵌入模型。
步骤S202:获取第一种子数据,所述第一种子数据包括至少一组正向关键词组,所述正向关键词组包括至少两个正向关键词。
步骤S203:依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成第一句子嵌入向量。
步骤S204:获取第一实体关系模板,所述第一实体关系模板用于表征所述第一种子数据的所述至少两个正向关键词的特定关系。
步骤S205:依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系,所述实体关系用于表征所述预设待挖掘数据集中具有与所述至少两个正向关键词同样特定关系的数据。
在本实施例中,图3中的步骤S201、S202、S203、S204、S205和图1中的步骤S101、S102、S103、S104、S105类似,为简约起见,此处不再赘述。
步骤S206:依据所述实体关系,在所述预设待挖掘数据集中获取所述第一种子数据中所述至少一组正向关键词组以外的第二正向关键词组,所述第二正向关键词组包括匹配所述第一实体关系模板的至少两个正向关键词;将所述第二正向关键词组更新到所述第一种子数据中。
需要说明的是,依据所述第一句子嵌入向量提取所述实体关系后,通过匹配所述第二正向关键词组更新所述第一种子数据后会通过计算再次更新所述第一实体关系模板,此过程可以多次重复迭代进行,直到达到预设迭代次数后即输出最终满足数据挖掘深度的所述实体关系,所述预设迭代次数可以人为指定。
本发明的基于句子嵌入的数据挖掘方法通过训练基于句子的嵌入模型,将预设待挖掘数据集中匹配关键词的上中下文输入句子嵌入模型,计算语义相似度,并且通过反复的迭代更新种子数据,并且用户可以根据自身需求设置预设迭代次数控制数据挖掘的时间和深度,使用户体验性更佳,且在兼顾统计指标的同时,使数据挖掘结果更加精确。
请参阅图4,图4是本发明实施例的数据挖掘装置的结构示意图。如图4所示,该装置包括获取模块21、模型训练模块22、数据挖掘模块23。
获取模块21,用于获取示例语句及第一种子数据,所述示例语句为任意一句表达完整意义的句子,所述第一种子数据包括至少一组正向关键词组,所述正向关键词组包括至少两个正向关键词;
可选地,获取模块21,还可以用于获取第一实体关系模板;
模型训练模块22,用于依据所述示例语句及预设语料库训练获得句子嵌入模型;
数据挖掘模块23,用于依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成所述上中下文语句的第一句子嵌入向量,并依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系,所述实体关系用于表征所述预设待挖掘数据集中具有与所述至少两个正向关键词同样特定关系的数据。可以理解的是,上述数据挖掘装置的各模块实现各功能的具体方式可参阅上述实施例对应的具体步骤,故在此不作赘述。
本发明的数据挖掘装置通过训练基于句子的嵌入模型,将预设待挖掘数据集中匹配关键词的上中下文输入句子嵌入模型,计算语义相似度,可以在兼顾统计指标的同时,还依据语义层面表示文本相似性,使数据挖掘结果更加精确。
请参阅图5,图5为本发明实施例的数据挖掘设备的结构示意图。如图5所示,该数据挖掘设备60包括处理器61及和处理器61耦接的存储器62。
存储器62存储有用于实现上述任一实施例所述的数据挖掘方法的程序指令。
处理器61用于执行存储器62存储的程序指令以对所述数据进行挖掘。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本发明实施例的存储装置的结构示意图。本发明实施例的存储装置存储有能够实现上述所有方法的程序文件71,其中,该程序文件71可以以软件产品的形式存储在上述存储装置中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于句子嵌入的数据挖掘方法,其特征在于,包括以下步骤:
获取示例语句,所述示例语句为任意一句表达完整意义的句子,依据所述示例语句及预设语料库训练获得句子嵌入模型;
获取第一种子数据,所述第一种子数据包括至少一组正向关键词组,所述正向关键词组包括至少两个正向关键词;
依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体及其对应的上中下文语句,并依据所述上中下文语句及所述句子嵌入模型生成第一句子嵌入向量;
获取第一实体关系模板,所述第一实体关系模板用于表征所述第一种子数据的所述至少两个正向关键词的特定关系;
依据所述第一句子嵌入向量、所述第一实体关系模板在所述预设待挖掘数据集中提取实体关系,所述实体关系用于表征所述预设待挖掘数据集中具有与所述至少两个正向关键词同样特定关系的数据。
2.根据权利要求1所述基于句子嵌入的数据挖掘方法,其特征在于,所述获取第一实体关系模板,包括:
在预设待挖掘数据集中获取所述第一种子数据的所述正向关键词组中所述至少两个正向关键词的第一上中下文语句;
依据所述第一上中下文语句及所述句子嵌入模型生成种子数据句子嵌入向量;
依据所述种子数据句子嵌入向量获取所述第一种子数据的第一实体关系模板。
3.根据权利要求2所述基于句子嵌入的数据挖掘方法,其特征在于,所述依据所述种子数据句子嵌入向量获取所述第一种子数据的第一实体关系模板还包括以下步骤:
计算所述种子数据句子嵌入向量与所述第一实体关系模板的第一相似度;
若所述第一相似度在预设相似度范围内,则将所述种子数据句子嵌入向量添加到所述第一实体关系模板中;
若所述第一相似度不在预设相似度范围内,则生成第二实体关系模板,所述第二实体关系模板与所述第一实体关系模板替换更新为所述第一实体关系模板。
4.根据权利要求1所述基于句子嵌入的数据挖掘方法,其特征在于,所述基于句子嵌入的数据挖掘方法还包括以下步骤:
依据所述实体关系,在所述预设待挖掘数据集中获取所述第一种子数据中所述至少一组正向关键词组以外的第二正向关键词组,所述第二正向关键词组包括匹配所述第一实体关系模板的至少两个正向关键词;
将所述第二正向关键词组更新到所述第一种子数据中。
5.根据权利要求1所述基于句子嵌入的数据挖掘方法,其特征在于,所述第一种子数据的所述正向关键词组中还包括所述至少两个正向关键词分别对应的第一属性、第二属性,所述依据所述第一种子数据的所述正向关键词组在预设待挖掘数据集中获取待匹配关系实体,包括以下步骤:
依据所述至少两个正向关键词的所述第一属性、所述第二属性在所述待挖掘数据集获取待匹配关系实体。
6.根据权利要求5所述基于句子嵌入的数据挖掘方法,其特征在于,所述第一种子数据还包括至少一组负向关键词组,所述负向关键词组包括至少两个负向关键词,所述依据所述至少两个正向关键词的所述第一属性、所述第二属性在所述待挖掘数据集获取待匹配关系实体中还包括以下步骤:
依据所述至少两个正向关键词的所述第一属性、所述第二属性在所述待挖掘数据集获取待匹配关键词;
在所述待匹配关键词中过滤掉满足所述负向关键词组的关键词获得所述待匹配关系实体。
7.根据权利要求1所述基于句子嵌入的数据挖掘方法,其特征在于,所述预设语料库包括公共语料库、行业语料库中至少一种。
8.根据权利要求1所述基于句子嵌入的数据挖掘方法,其特征在于,所述依据所述示例语句及所述预设语料库训练获得句子嵌入模型包括以下步骤:
切分所述示例语句为至少一个关键词,依据所述关键词及所述预设语料库训练获得嵌入模型;
依据所述嵌入模型获取所述句子嵌入模型。
9.一种数据挖掘设备,其特征在于,所述数据挖掘设备包括处理器、与所述处理器耦接的存储器,其中,
所述存储器存储有用于实现如权利要求1-8中任一项所述基于句子嵌入的数据挖掘方法的程序指令;
所述处理器用于执行所述存储器存储的所述程序指令以对所述待挖掘数据集进行数据挖掘。
10.一种存储装置,其特征在于,存储有能够实现如权利要求1-8中任一项所述基于句子嵌入的数据挖掘方法的程序文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911121162.XA CN110990451B (zh) | 2019-11-15 | 2019-11-15 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911121162.XA CN110990451B (zh) | 2019-11-15 | 2019-11-15 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110990451A true CN110990451A (zh) | 2020-04-10 |
CN110990451B CN110990451B (zh) | 2023-05-12 |
Family
ID=70084620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911121162.XA Active CN110990451B (zh) | 2019-11-15 | 2019-11-15 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990451B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113535805A (zh) * | 2021-06-17 | 2021-10-22 | 科大讯飞股份有限公司 | 数据挖掘方法及相关装置和电子设备、存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011004524A1 (ja) * | 2009-07-07 | 2011-01-13 | 日本電気株式会社 | テキストマイニング装置 |
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN106970993A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 挖掘模型更新方法和装置 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN107729322A (zh) * | 2017-11-06 | 2018-02-23 | 广州杰赛科技股份有限公司 | 分词方法及装置、建立句子向量生成模型方法及装置 |
US9910914B1 (en) * | 2016-05-05 | 2018-03-06 | Thomas H. Cowley | Information retrieval based on semantics |
CN109033076A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 信息挖掘方法和装置 |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109766013A (zh) * | 2018-12-28 | 2019-05-17 | 北京金山安全软件有限公司 | 诗词语句输入推荐方法、装置和电子设备 |
US20190155898A1 (en) * | 2017-11-23 | 2019-05-23 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and device for extracting entity relation based on deep learning, and server |
CN110309267A (zh) * | 2019-07-08 | 2019-10-08 | 哈尔滨工业大学 | 基于预训练模型的语义检索方法和系统 |
-
2019
- 2019-11-15 CN CN201911121162.XA patent/CN110990451B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011004524A1 (ja) * | 2009-07-07 | 2011-01-13 | 日本電気株式会社 | テキストマイニング装置 |
CN105938495A (zh) * | 2016-04-29 | 2016-09-14 | 乐视控股(北京)有限公司 | 实体关系识别方法及装置 |
US9910914B1 (en) * | 2016-05-05 | 2018-03-06 | Thomas H. Cowley | Information retrieval based on semantics |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN106970993A (zh) * | 2017-03-31 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 挖掘模型更新方法和装置 |
CN107679144A (zh) * | 2017-09-25 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN107729322A (zh) * | 2017-11-06 | 2018-02-23 | 广州杰赛科技股份有限公司 | 分词方法及装置、建立句子向量生成模型方法及装置 |
US20190155898A1 (en) * | 2017-11-23 | 2019-05-23 | Beijing Baidu Netcom Science And Technology Co. Ltd. | Method and device for extracting entity relation based on deep learning, and server |
CN109101479A (zh) * | 2018-06-07 | 2018-12-28 | 苏宁易购集团股份有限公司 | 一种用于中文语句的聚类方法及装置 |
CN109033076A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 信息挖掘方法和装置 |
CN109766013A (zh) * | 2018-12-28 | 2019-05-17 | 北京金山安全软件有限公司 | 诗词语句输入推荐方法、装置和电子设备 |
CN110309267A (zh) * | 2019-07-08 | 2019-10-08 | 哈尔滨工业大学 | 基于预训练模型的语义检索方法和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157788A (zh) * | 2021-04-13 | 2021-07-23 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113157788B (zh) * | 2021-04-13 | 2024-02-13 | 福州外语外贸学院 | 大数据挖掘方法及系统 |
CN113535805A (zh) * | 2021-06-17 | 2021-10-22 | 科大讯飞股份有限公司 | 数据挖掘方法及相关装置和电子设备、存储介质 |
CN113535805B (zh) * | 2021-06-17 | 2024-06-04 | 科大讯飞股份有限公司 | 数据挖掘方法及相关装置和电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110990451B (zh) | 2023-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109960800B (zh) | 基于主动学习的弱监督文本分类方法及装置 | |
CN109493977B (zh) | 文本数据处理方法、装置、电子设备及计算机可读介质 | |
CN109388795B (zh) | 一种命名实体识别方法、语言识别方法及系统 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
US10394956B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
KR101754473B1 (ko) | 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN110909548A (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN110347790B (zh) | 基于注意力机制的文本查重方法、装置、设备及存储介质 | |
CN102033880A (zh) | 基于结构化数据集合的标注方法和装置 | |
CN103971677A (zh) | 一种声学语言模型训练方法和装置 | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
US20140032207A1 (en) | Information Classification Based on Product Recognition | |
CN110162594B (zh) | 文本数据的观点生成方法、装置及电子设备 | |
CN110717038B (zh) | 对象分类方法及装置 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN111737997A (zh) | 一种文本相似度确定方法、设备及储存介质 | |
CN110619051A (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN107330009B (zh) | 主题词分类模型创建方法、创建装置及存储介质 | |
CN106547875A (zh) | 一种基于情感分析和标签的微博在线突发事件检测方法 | |
WO2024099037A1 (zh) | 数据处理、实体链接方法、装置和计算机设备 | |
CN109117477B (zh) | 面向中文领域的非分类关系抽取方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |