CN105868236A - 一种同义词数据挖掘方法和系统 - Google Patents

一种同义词数据挖掘方法和系统 Download PDF

Info

Publication number
CN105868236A
CN105868236A CN201510908015.2A CN201510908015A CN105868236A CN 105868236 A CN105868236 A CN 105868236A CN 201510908015 A CN201510908015 A CN 201510908015A CN 105868236 A CN105868236 A CN 105868236A
Authority
CN
China
Prior art keywords
vocabulary
synonym
storehouse
similarity
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510908015.2A
Other languages
English (en)
Inventor
李建南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201510908015.2A priority Critical patent/CN105868236A/zh
Priority to PCT/CN2016/088681 priority patent/WO2017096819A1/zh
Publication of CN105868236A publication Critical patent/CN105868236A/zh
Priority to US15/242,271 priority patent/US20170169012A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Abstract

本发明公开了一种同义词数据挖掘方法和系统,包括获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。因此,所述同义词数据挖掘方法和系统解决了在媒体播放中不能针对不同的观看群体进行视频文件观看限制的问题。

Description

一种同义词数据挖掘方法和系统
技术领域
本发明涉及媒体传播技术领域,特别是指一种同义词数据挖掘方法和系统。
背景技术
随着网络技术的飞速发展,人们对于网络的需求体现在生活的每个角落,开始对社会产生深远的影响。而数据挖掘一般是从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。
目前,将数据挖掘和网络技术进行结合,出现的网络检索应用中,可以通过输入关键字,并根据该关键字检索到相关的所有内容。但是,在现有技术中网络检索应用只能是具有同样关键字的内容检索出来,从而检索范围很小,无法满足用户的检索需求。另外,如果输入的关键字不准确则要检索的目标内容就可能不会被检索到,现有的网络检索应用使用起来需要大量的时间在确定关键字上,从而用户体验非常差。因此,现在的网络检索应用中急需一种同义词词典库,使其能够检索到更多的内容。
发明内容
有鉴于此,本发明的目的在于提出一种同义词数据挖掘方法和系统,解决了在现有技术中网络检索应用只能是具有同样关键字的内容检索出来的问题。
基于上述目的本发明提供的同义词数据挖掘方法,包括步骤:
获取在词典、视频文件库和搜索日志记录中词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;
根据候选同义词库中的数据信息,训练并获得同义词模型;
将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
在一些实施例中,所述在词典中词汇对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;
所述在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量;
所述在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
在一些实施例中,所述在建立词汇对与相似度值相关联的候选同义词库之前,还包括:将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;
还有,所述的候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。
在一些实施例中,所述训练并获得同义词模型包括:从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型;
获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
在一些实施例中,所述将候选同义词库中每个词汇对对应的相似度值代入同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。
在另一方面,本发明还提供了一种同义词数据挖掘系统,包括:
候选同义词库建立单元,用于获取在词典、视频文件库和搜索日志记录中词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;
同义词模型建立单元,用于根据候选同义词库中的数据信息,训练并获得同义词模型;
同义词库建立单元,用于将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
在一些实施例中,所述候选同义词库建立单元在词典中词汇对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;
在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量;
在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
在一些实施例中,所述候选同义词库建立单元还用于将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;
还有,所述的候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。
在一些实施例中,所述同义词模型建立单元训练并获得同义词模型包括:从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型;
获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
在一些实施例中,所述同义词库建立单元将候选同义词库中每个词汇对对应的相似度值代入同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。
从上面所述可以看出,本发明提供的同义词数据挖掘方法和系统,通过获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;根据候选同义词库中的数据信息,训练并获得同义词模型;将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。从而,可以建立一个具有很高准确性的同义词库,并且能够应用于检索应用中,用户在使用检索应用中可以检索到更多的内容,提高检索质量。
附图说明
图1为本发明第一实施例中同义词数据挖掘方法的流程示意图;
图2为本发明可参考实施例中同义词数据挖掘方法的流程示意图;
图3为本发明同义词数据挖掘系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
根据网络检索应用的使用现状,根据用户的检索需求,无法实现用户检索到更多的内容,导致对于每一个用户在网络检索应用上可以查找到的信息很少,只能是具有同样关键字的内容。为了解决这一问题,本发明从用户角度,体会到用户希望在网络检索应用上能够检索到更多的内容。因此,本发明的思路是在网络检索应用上,设置同义词的检索功能。
参阅图1所示,为本发明第一实施例中同义词数据挖掘方法流程示意图,所述同义词数据挖掘方法包括:
步骤101,获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库。
较佳地,基于词典建立预备同义词库,在词典预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,是通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量。然后,按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点。再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度。
较佳地,基于视频文件建立预备同义词库,在视频文件预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,是通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量。
在另一个较佳地实施例中,基于搜索日志建立预备同义词库,在搜索日志预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
优选地,获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。并且,提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。然后,建立候选同义词库。
作为另一个实施例,将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中。因此,候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。
步骤102,根据候选同义词库中的数据信息,训练并获得同义词模型。
较佳地,从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型。然后便获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
步骤103,将候选同义词库中每个词汇对应的相似度值代入同义词模型,判断获得的输出数值是否大于预设的阈值;若大于,则将该输出数值果对应的词汇对从候选同义词库中提取,存储在同义词库中;若小于,则舍弃该结果对应的词汇对。
优选地,将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出结果。
需要说明的是,最后形成的同义词库可以在检索应用中进行使用。在使用时,可以通过获取用户输入的关键词,在同义词库中查找到该关键词相对应的同义词,然后可以搜索到与该关键词以及该关键词的同义词相关的信息。值得说明的是,在同义词库应用于各种搜索应用,用户输入关键词进行搜索时可以选择是否将该关键词的同义词也进行搜索,若选择是,则可以搜索到与该关键词以及该关键词的同义词相关的信息。若选择否,则只搜索该关键词相关的信息。因此,可以看出本发明不仅可以建立一个准确性很高的同义词库,同时还能够提供在检索应用中,更为重要的是可以提供给用户自行设置是否进行同义词检索的功能。
作为一个可参考的实施例,参阅图2所示,所述同义词数据挖掘方法具体可采用如下步骤:
步骤201,基于词典、视频文件库和搜索日志记录,分别建立相应的预备同义词库。
作为实施例,基于词典建立预备同义词库时,将所有词汇进行编码,可以把每个词汇的解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列。即将该词汇作为父节点,而它的预备同义词向量作为子节点。最后,利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度。
而基于视频文件建立预备同义词库时,是在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中。较佳地,在计算每个词汇与其相对应的每个预备同义词向量的相似度时,是通过如下方法:对于词汇w1和与w1相对应的同义词w2,统计w1在多少个标题中出现,记为count(w1),同样统计w2在多少个标题中出现记为count(w2),然后w1、w2在相同的标题中同时出现的数量记为count(w1,w2),计算w1、w2的相似度:
r e l ( w 1 , w 2 ) = ( c o u n t ( w 1 , w 2 ) * c o u n t ( w 1 , w 2 ) ) c o u n t ( w 1 ) * c o u n t ( w 2 )
而基于搜索日志建立预备同义词库时,是基于用户搜索日志,对两个词汇w1、w2,统计w1在多少个查询query中出现,记为count(w1),同样统计w2在多少个query中出现记为count(w2)。w1、w2在相同的query中同时出现的数量记为count(w1,w2),即w1、w2互为对方的预备同义词向量。另外,w1、w2出现在不同query中,但是搜索了同一个结果,记为same(w1,w2)。计算w1、w2的相似度:
r e l ( w 1 , w 2 ) = ( c o u n t ( w 1 , w 2 ) * c o u n t ( w 1 , w 2 ) ) c o u n t ( w 1 ) * c o u n t ( w 2 )
步骤202,获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。
步骤203,提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。
步骤204,将候选同义词库中的每一对词汇相对应的三个向量的相似度值相加求平均值T。
步骤205,建立候选同义词库。
在实施例中,在候选同义词库中存储有一对一对的词汇,并且在每对词汇上存储有该词汇对在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值,即三个向量的相似度。具体的实施方式中,候选同义词库表示为(w1,w2,T1,T2,T3),其中w1和w2为具有预备同义词关系的词汇,T1为词典预备同义词库向量的相似度,T2为视频文件预备同义词库向量的相似度,T3为搜索日志预备同义词库向量的相似度。
步骤206,从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树(GBDT)模型。
步骤207,获得同义词梯度提升决策树(GBDT)模型:
F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
步骤208,将候选同义词库中每对词汇对应的三个向量的相似度值相加后的平均值代入到同义词GBDT模型中,获得输出的数值。
步骤209,判断该输出数值是否大于预设的阈值,若大于则进行步骤210,若小于则进行步骤211。
步骤210,将该输出数值对应的词汇对从候选同义词库中提取,存储在同义词库中。
步骤211,舍弃该结果对应的词汇对。
在本发明的另一方面,还提供了一种同义词数据挖掘系统,如图3所示,所述的视频播放系统包括依次连接的候选同义词库建立单元301、同义词模型建立单元302、同义词库建立单元303。其中,候选同义词库建立单元301用于获取在词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库。同义词模型建立单元302用于根据候选同义词库中的数据信息,训练并获得同义词模型。同义词库建立单元303用于将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
较佳地,所述候选同义词库建立单元301基于词典建立预备同义词库,在词典预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,是通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量。然后,按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点。再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度。
基于视频文件建立预备同义词库,在视频文件预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,是通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量。
基于搜索日志建立预备同义词库,在搜索日志预备同义词库中存储有联系的词汇对以及该词汇对的相似度值。具体来说,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
优选地,候选同义词库建立单元301获取词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中共同具有预备同义词关系的所有词汇对。并且,提取每个词汇对分别在词典预备同义词库、视频文件预备同义词库和搜索日志预备同义词库中对应的相似度值。然后建立候选同义词库。
另外,候选同义词库建立单元301将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中。因此,候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。
作为另一个实施例,同义词模型建立单元302从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型。然后便获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
优选地,同义词库建立单元303将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出结果。
需要说明的是,在本发明所述的同义词数据挖掘系统的具体实施内容,在上面所述的同义词数据挖掘方法中已经详细说明了,故在此重复内容不再说明。
综上所述,本发明提供的同义词数据挖掘方法、系统,创造性地提供了一种同义词库的建立方法和系统;而且,该同义词库中的同义词都是经过多层筛选、计算获得的高精确的同义词汇对;并且,该同义词库可以应用于搜索应用中,不仅满足了用户需要检索到更多内容的要求,还能够满足用户自定义检索内容(是否包括同义词的检索结果);因此本发明具有广泛、重大的推广意义;最后,整个所述的同义词数据挖掘方法和系统紧凑,易于限制。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种同义词数据挖掘方法,其特征在于,包括步骤:
获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;
根据候选同义词库中的数据信息,训练并获得同义词模型;
将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;
将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
2.根据权利要求1所述的方法,其特征在于,所述在词典中的词汇对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;
所述在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度 r e l ( w 1 , w 2 ) = c o u n t ( w 1 , w 2 ) * c o u n t ( w 1 , w 2 ) c o u n t ( w 1 ) * c o u n t ( w 2 ) ; 其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量;
所述在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度 r e l ( w 1 , w 2 ) = c o u n t ( w 1 , w 2 ) * s a m e ( w 1 , w 2 ) c o u n t ( w 1 ) * c o u n t ( w 2 ) ; 其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
3.根据权利要求2所述的方法,其特征在于,所述在建立词汇对与相似度值相关联的候选同义词库之前,还包括:将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;
还有,所述的候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。
4.根据权利要求3所述的方法,其特征在于,所述训练并获得同义词模型包括:从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型;
获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
5.根据权利要求4所述的方法,其特征在于,所述将候选同义词库中每个词汇对对应的相似度值代入同义词模型是,将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。
6.一种同义词数据挖掘系统,其特征在于,包括:
候选同义词库建立单元,用于获取词典、视频文件库和搜索日志记录中的词汇对,以及该词汇对的相似度值,建立词汇对与相似度值相关联的候选同义词库;
同义词模型建立单元,用于根据候选同义词库中的数据信息,训练并获得同义词模型;
同义词库建立单元,用于将候选同义词库中每个词汇对应的相似度值代入同义词模型得到输出数值;将所述输出数值大于预设的阈值的词汇对存储在同义词库中。
7.根据权利要求6所述的系统,其特征在于,所述候选同义词库建立单元在词典中词汇对以及该词汇对的相似度值,通过将词典中所有词汇进行编码,把词汇解释中出现的词汇作为预备同义词向量,然后按照树形结构进行排列,将该词汇作为父节点,而它的预备同义词向量作为子节点,再利用向量的余弦相似度算法计算每个词汇与相对应的每个预备同义词向量的相似度;
在视频文件库中词汇对以及该词汇对的相似度值,通过在一个预先设置的视频文件库中抽取视频的标题,在同一个标题中出现的词汇互相加入到对方的预备同义词向量中;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度 r e l ( w 1 , w 2 ) = c o u n t ( w 1 , w 2 ) * c o u n t ( w 1 , w 2 ) c o u n t ( w 1 ) * c o u n t ( w 2 ) ; 其中,count(w1)为w1出现的标题数量,count(w2)为w2出现的标题数量,count(w1,w2)为w1、w2在相同的标题中同时出现的数量;
在搜索日志记录中,在相同的查询请求中出现的词汇和在不同的查询请求但搜索结果相同的词汇,互为对方的预备同义词向量;对于词汇w1和与w1相对应的同义词w2,计算词汇与其相对应的每个预备同义词向量的相似度 r e l ( w 1 , w 2 ) = c o u n t ( w 1 , w 2 ) * s a m e ( w 1 , w 2 ) c o u n t ( w 1 ) * c o u n t ( w 2 ) ; 其中,count(w1)为w1出现的查询数量,count(w2)为w2出现的查询数量,count(w1,w2)为w1、w2在相同的查询中同时出现的数量,same(w1,w2)为w1、w2在不同查询中但搜索了同一个结果的数量。
8.根据权利要求7所述的系统,其特征在于,所述候选同义词库建立单元还用于将每个词汇对在词典、视频文件库和搜索日志记录中的相似度值相加求平均值,并存储在候选同义词库中;
还有,所述的候选同义词库表示为(w1,w2,T1,T2,T3,T),其中T1为词汇对w1、w2在词典中相似度值,T2为词汇对w1、w2在视频文件库中相似度值,T3为词汇对w1、w2在搜索日志记录中相似度值,T为词汇对w1、w2相似度平均值。
9.根据权利要求8所述的系统,其特征在于,所述同义词模型建立单元训练并获得同义词模型包括:从候选同义词库中提取第1条至第n条数据信息(w1,w2,T)作为输入,从候选同义词库中提取第n+1条至第2n条数据信息(w1,w2,T)作为输出,训练梯度提升决策树模型;
获得同义词梯度提升决策树模型:F(T)=α1β1(T)+α2β2(T)+...+αmβm(T)
其中,β1m是m棵决策树,α1m是每棵树的权重,T是每一对词汇相对应的三个向量的相似度值相加后的平均值。
10.根据权利要求9所述的系统,其特征在于,所述同义词库建立单元将候选同义词库中每个词汇对对应的相似度值代入同义词模型是将候选同义词库中每个词汇对对应的相似度平均值代入到同义词梯度提升决策树模型中,获得所述同义词梯度提升决策树模型的输出数值。
CN201510908015.2A 2015-12-09 2015-12-09 一种同义词数据挖掘方法和系统 Pending CN105868236A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510908015.2A CN105868236A (zh) 2015-12-09 2015-12-09 一种同义词数据挖掘方法和系统
PCT/CN2016/088681 WO2017096819A1 (zh) 2015-12-09 2016-07-05 一种同义词数据挖掘方法和系统
US15/242,271 US20170169012A1 (en) 2015-12-09 2016-08-19 Method and System for Synonym Data Mining

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510908015.2A CN105868236A (zh) 2015-12-09 2015-12-09 一种同义词数据挖掘方法和系统

Publications (1)

Publication Number Publication Date
CN105868236A true CN105868236A (zh) 2016-08-17

Family

ID=56624366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510908015.2A Pending CN105868236A (zh) 2015-12-09 2015-12-09 一种同义词数据挖掘方法和系统

Country Status (3)

Country Link
US (1) US20170169012A1 (zh)
CN (1) CN105868236A (zh)
WO (1) WO2017096819A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107016055A (zh) * 2017-03-03 2017-08-04 广州神马移动信息科技有限公司 用于挖掘实体别名的方法、设备及电子设备
CN107038173A (zh) * 2016-02-04 2017-08-11 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
CN107122423A (zh) * 2017-04-06 2017-09-01 深圳Tcl数字技术有限公司 影视推介方法及装置
CN107203504A (zh) * 2017-05-18 2017-09-26 北京京东尚科信息技术有限公司 字符串替换方法和装置
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN107679030A (zh) * 2017-09-04 2018-02-09 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN108255810A (zh) * 2018-01-10 2018-07-06 北京神州泰岳软件股份有限公司 近义词挖掘方法、装置及电子设备
CN108932222A (zh) * 2017-05-22 2018-12-04 中国移动通信有限公司研究院 一种获取词语相关度的方法及装置
CN110032675A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 基于共现词的检索方法、装置、设备及可读存储介质
CN110069599A (zh) * 2019-03-13 2019-07-30 平安城市建设科技(深圳)有限公司 基于近似词的检索方法、装置、设备及可读存储介质
CN113011166A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种基于决策树分类的继电保护缺陷文本同义词识别方法

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9342502B2 (en) 2013-11-20 2016-05-17 International Business Machines Corporation Contextual validation of synonyms in otology driven natural language processing
US11182416B2 (en) 2018-10-24 2021-11-23 International Business Machines Corporation Augmentation of a text representation model
CN110222513B (zh) * 2019-05-21 2023-06-23 平安科技(深圳)有限公司 一种线上活动的异常监测方法、装置及存储介质
CN112084290B (zh) * 2019-06-13 2024-04-05 北京沃东天骏信息技术有限公司 一种数据检索方法、装置、设备及存储介质
CN112287080B (zh) * 2020-10-23 2023-10-03 平安科技(深圳)有限公司 问题语句的改写方法、装置、计算机设备和存储介质
CN114861638A (zh) * 2022-06-10 2022-08-05 安徽工程大学 一种中文同义词扩展方法及装置
CN117093715B (zh) * 2023-10-18 2023-12-29 湖南财信数字科技有限公司 词库扩充方法、系统、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1072982A2 (en) * 1999-07-30 2001-01-31 Matsushita Electric Industrial Co., Ltd. Method and system for similar word extraction and document retrieval
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN105095204A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 同义词的获取方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006018041A1 (de) * 2004-08-13 2006-02-23 Swiss Reinsurance Company Sprach- und textanalysevorrichtung und entsprechendes verfahren
US20070239742A1 (en) * 2006-04-06 2007-10-11 Oracle International Corporation Determining data elements in heterogeneous schema definitions for possible mapping
US9600566B2 (en) * 2010-05-14 2017-03-21 Microsoft Technology Licensing, Llc Identifying entity synonyms
CN102591862A (zh) * 2011-01-05 2012-07-18 华东师范大学 一种基于词共现的汉语实体关系提取的控制方法及装置
US8688688B1 (en) * 2011-07-14 2014-04-01 Google Inc. Automatic derivation of synonym entity names
CN102693279B (zh) * 2012-04-28 2014-09-03 合一网络技术(北京)有限公司 一种快速计算评论相似度的方法、装置及系统
WO2015161338A1 (en) * 2014-04-24 2015-10-29 Semantic Technologies Pty Ltd Ontology aligner method, semantic matching method and apparatus
US10095784B2 (en) * 2015-05-29 2018-10-09 BloomReach, Inc. Synonym generation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1072982A2 (en) * 1999-07-30 2001-01-31 Matsushita Electric Industrial Co., Ltd. Method and system for similar word extraction and document retrieval
CN104978356A (zh) * 2014-04-10 2015-10-14 阿里巴巴集团控股有限公司 一种同义词的识别方法及装置
CN105095204A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 同义词的获取方法及装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038173A (zh) * 2016-02-04 2017-08-11 腾讯科技(深圳)有限公司 应用查询方法和装置、相似应用检测方法和装置
CN106844571A (zh) * 2017-01-03 2017-06-13 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN106844571B (zh) * 2017-01-03 2020-04-07 北京齐尔布莱特科技有限公司 识别同义词的方法、装置和计算设备
CN107016055A (zh) * 2017-03-03 2017-08-04 广州神马移动信息科技有限公司 用于挖掘实体别名的方法、设备及电子设备
CN107016055B (zh) * 2017-03-03 2020-12-18 阿里巴巴(中国)有限公司 用于挖掘实体别名的方法、设备及电子设备
CN107122423A (zh) * 2017-04-06 2017-09-01 深圳Tcl数字技术有限公司 影视推介方法及装置
CN107203504A (zh) * 2017-05-18 2017-09-26 北京京东尚科信息技术有限公司 字符串替换方法和装置
CN107203504B (zh) * 2017-05-18 2021-02-26 北京京东尚科信息技术有限公司 字符串替换方法和装置
CN108932222A (zh) * 2017-05-22 2018-12-04 中国移动通信有限公司研究院 一种获取词语相关度的方法及装置
CN108932222B (zh) * 2017-05-22 2021-11-19 中国移动通信有限公司研究院 一种获取词语相关度的方法及装置
CN107451126B (zh) * 2017-08-21 2020-07-28 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN107679030A (zh) * 2017-09-04 2018-02-09 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN107679030B (zh) * 2017-09-04 2021-08-13 北京京东尚科信息技术有限公司 基于用户操作行为数据提取同义词的方法和装置
CN108255810A (zh) * 2018-01-10 2018-07-06 北京神州泰岳软件股份有限公司 近义词挖掘方法、装置及电子设备
CN110032675A (zh) * 2019-03-13 2019-07-19 平安城市建设科技(深圳)有限公司 基于共现词的检索方法、装置、设备及可读存储介质
CN110069599A (zh) * 2019-03-13 2019-07-30 平安城市建设科技(深圳)有限公司 基于近似词的检索方法、装置、设备及可读存储介质
CN113011166A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种基于决策树分类的继电保护缺陷文本同义词识别方法

Also Published As

Publication number Publication date
WO2017096819A1 (zh) 2017-06-15
US20170169012A1 (en) 2017-06-15

Similar Documents

Publication Publication Date Title
CN105868236A (zh) 一种同义词数据挖掘方法和系统
CN101055585B (zh) 文档聚类系统和方法
CN103336795B (zh) 基于多特征的视频索引方法
CN103810299A (zh) 基于多特征融合的图像检索方法
CN102163228B (zh) 用于确定资源候选项的排序结果的方法、装置及设备
CN109635083A (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN102637170A (zh) 一种问题推送方法及系统
CN105975596A (zh) 一种搜索引擎查询扩展的方法及系统
CN105183897A (zh) 一种视频搜索排序的方法和系统
CN105849720A (zh) 视觉语义复合网络以及用于形成该网络的方法
CN104298787A (zh) 一种基于融合策略的个性化推荐方法及装置
CN102890711A (zh) 一种检索排序方法及系统
CN110083696A (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN104657376B (zh) 基于节目关系的视频节目的搜索方法和装置
CN101350027A (zh) 内容检索设备和内容检索方法
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
Hammouda et al. Data mining in e-learning
CN109299357B (zh) 一种老挝语文本主题分类方法
CN107341199A (zh) 一种基于文献信息共性模式的推荐方法
CN101763395A (zh) 采用人工智能技术自动生成网页的方法
Ahmadi et al. Unsupervised matching of data and text
Liang et al. Personalized recommender system based on item taxonomy and folksonomy
CN106570196A (zh) 视频节目的搜索方法和装置
RU2433467C1 (ru) Способ формирования структуры агрегированных данных и способ поиска данных посредством структуры агрегированных данных в системе управления базами данных
Zhang et al. Extractive Document Summarization based on hierarchical GRU

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160817

WD01 Invention patent application deemed withdrawn after publication