CN103106189A - 一种挖掘同义属性词的方法和装置 - Google Patents
一种挖掘同义属性词的方法和装置 Download PDFInfo
- Publication number
- CN103106189A CN103106189A CN2011103587409A CN201110358740A CN103106189A CN 103106189 A CN103106189 A CN 103106189A CN 2011103587409 A CN2011103587409 A CN 2011103587409A CN 201110358740 A CN201110358740 A CN 201110358740A CN 103106189 A CN103106189 A CN 103106189A
- Authority
- CN
- China
- Prior art keywords
- query
- word
- attribute word
- standard query
- click
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种挖掘同义属性词的方法和装置,其中方法包括:基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,标准query由实体词和属性词的组合构成;针对每一个标准query分别计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query;将确定的非标准query中去除与当前标准query相同的实体词后,得到候选同义属性词;对各候选同义属性词进行打分,基于打分值确定当前标注query中属性词的同义属性词。本发明能够节约人力资源、提高效率和召回率。
Description
【技术领域】
本发明涉及计算机技术领域,特别涉及一种挖掘同义属性词的方法和装置。
【背景技术】
随着网络技术的不断发展,搜索引擎已经成为人们获取信息的重要途径,用户通过在搜索引擎中输入搜索词(query),获取搜索引擎针对该query返回的搜索结果。为了有针对性地向用户返回搜索结果,需要对query进行需求分析,其中实体属性是分析用户需求的基础,同时也使实现结构化搜索(垂直搜索)的基础。即从query中分析出实体词和属性词,例如对于“刘德华身高是多少”的query,分析出其实体词为“刘德华”,属性词为“身高”,这样就能够通过结构化搜索返回用户想知道的刘德华身高的具体信息。
在实体属性的识别过程中,实体词和属性词分别通过预设的实体词词典和属性词词典进行匹配识别,然而,通常实体词的表述比较唯一和固定,而属性词则可能存在不同的表述形式,通常属性词词典中包含的是标准化的表述形式,对于其他的同义属性词则通过人工的方式添加或者结合同义词词库添加,人工添加的方式耗费人力资源、效率较低且召回率较低;结合同义词词典的方式,同样存在召回率较低的问题,例如,对于某些同义词词典中所没有的口语化的表述“有多高”、“个头”等同义属性词都无法召回。
【发明内容】
本发明提供了一种挖掘同义属性词的方法和装置,以便于节约人力资源、提高效率和召回率。
具体技术方案如下:
一种挖掘同义属性词的方法,该方法包括:
S1、获取query集合;
S2、基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成;
S3、针对每一个标准query分别执行步骤S31至步骤S32:
S31、计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query;
S32、将所述步骤S31确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词;
S33、基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
根据本发明一优选实施例,该方法还包括:确定所述query集合中各query的点击向量,所述query的点击向量由query对应的被点击url以及各被点击url的点击权重构成;
所述步骤S31中计算非标准query与当前标准query的点击相似度为:计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
根据本发明一优选实施例,queryi的点击向量中urlj的点击权重wij为:
其中,clickij为对应于queryi时urlj的被点击次数,n为queryi对应的被点击url的总数目。
根据本发明一优选实施例,所述步骤S2之前还包括:对所述query集合进行剪枝处理得到有效query,其中所述剪枝处理采用以下剪枝策略中的至少一种:
剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query;
剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query;以及,
剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉;
在所述步骤S2中对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
根据本发明一优选实施例,在所述步骤S2中对query进行结构化解析具体为:
判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query;否则该query为非标准query。
根据本发明一优选实施例,所述步骤S32中的过滤处理包括以下过滤处理中的至少一种:
过滤掉停用词;
过滤掉带有数字类信息的词语;以及,
过滤掉表意求取资源的词语。
根据本发明一优选实施例,所述步骤S33中,候选同义属性词与当前标准query中属性词的共现频度占比为co_tf与ttf的比值;
其中所述co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,所述ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
根据本发明一优选实施例,所述步骤S33中,候选同义属性词与当前标准query中属性词的点击相似度为:当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值。
根据本发明一优选实施例,所述步骤S33中,候选同义属性词与当前标准query中属性词的字面相似度为:该候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值。
根据本发明一优选实施例,在所述步骤S33之前还包括:
判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,则不执行所述步骤S33;否则,继续执行所述步骤S33;或者,
判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,则不执行所述步骤S33;否则继续执行所述步骤S33。
一种挖掘同义属性词的装置,该装置包括:
数据获取单元,用于获取query集合;
结构化解析单元,用于基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成;
数据抽取单元,用于分别将各标准query作为当前标准query执行:计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query;
候选词抽取单元,用于将所述数据抽取单元确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词;
同义词抽取单元,用于基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
根据本发明一优选实施例,该装置还包括:
向量确定单元,用于确定所述query集合中各query的点击向量并提供给所述数据抽取单元,所述query的点击向量由query对应的被点击url以及各被点击url的点击权重构成;
所述数据抽取单元在计算非标准query与当前标准query的点击相似度时,计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
根据本发明一优选实施例,queryi的点击向量中urlj的点击权重wij为:
其中,clickij为对应于queryi时urlj的被点击次数,n为queryi对应的被点击url的总数目。
根据本发明一优选实施例,该装置还包括:
剪枝处理单元,用于对所述query集合进行剪枝处理得到有效query,并将有效query提供给所述结构化解析单元,其中所述剪枝处理采用以下剪枝策略中的至少一种:
剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query;
剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query;以及,
剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉;
所述结构化解析单元对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
根据本发明一优选实施例,所述结构化解析单元对query进行结构化解析时,具体判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query;否则该query为非标准query。
根据本发明一优选实施例,所述候选词抽取单元执行以下过滤处理中的至少一种:
过滤掉停用词;
过滤掉带有数字类信息的词语;以及,
过滤掉表意求取资源的词语。
根据本发明一优选实施例,该装置还包括:
第一计算单元,用于计算co_tf与ttf的比值,将该比值确定为候选同义属性词与当前标准query中属性词的共现频度占比;
其中所述co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,所述ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
根据本发明一优选实施例,该装置还包括:
第二计算单元,用于计算当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值,将该平均值确定为候选同义属性词与当前标准query中属性词的点击相似度。
根据本发明一优选实施例,该装置还包括:
第三计算单元,用于计算候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值,将该比值确定为该候选同义属性词与当前标准query中属性词的字面相似度。
根据本发明一优选实施例,该装置还包括第一判断单元和第二判断单元中的至少一种;
所述第一判断单元,用于判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,禁止所述同义词抽取单元对当前标准query执行操作;否则,触发所述同义词抽取单元对当前标准query执行操作;
所述第二判断单元,用于判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,禁止所述同义词抽取单元对当前标准query执行操作;否则,触发所述同义词抽取单元对当前标准query执行操作。
由以上技术方案可以看出,本发明提供的方法和装置通过将结构化解析得到的标准query与非标准化query进行点击相似度计算,选择出满足相似度要求且与当前标准query具有相同实体词的非标准query,去除实体词和过滤处理后得到候选同义属性词,并进一步基于与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种从候选同义属性词中选择标准query中属性词的同义属性词。这种方式无需人工参与,节约了人力资源提高了效率,并且,能够挖掘出不易穷举的口语化表述,甚至对于新出现的表述也能够召回,扩大了召回率。
【附图说明】
图1为本发明实施例一提供的方法流程图;
图2为本发明实施例二提供的一种装置结构图;
图3为本发明实施例二提供的另一种装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的方法流程图,如图1所示,该方法包括以下步骤:
步骤101:获取query集合。
可以从搜索日志中获取某个时间段内的query集合作为抽取同义属性词的语料。
步骤102:确定query集合中各query的点击向量,其中query的点击向量由该query对应的被点击url以及各url的点击权重构成。
queryi的点击向量中urlj的点击权重wij可以采用queryi在urlj上的点击占比,具体可以表示为以下公式:
其中,clickij为对应于queryi时urlj的被点击次数,n为queryi对应的被点击url的总数目。
本步骤中确定的各query的点击向量用于后续计算query之间点击相似度时使用。
步骤103:对query集合进行剪枝处理得到有效query。
由于query集合中,各query可能具有庞大的搜索量,因此各query的点击向量也可能过于庞大,在这样的数据规模上计算query之间的点击相似度复杂度过大,因此,对query集合进行有效的剪枝处理,降低数据规模十分必要。
在进行剪枝处理时采用的剪枝策略可以包括但不限于以下剪枝策略的至少一种:
剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query。
剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query。
实际的query点击具有相当的数据稀疏性,因此,对于搜索次数或者对应点击总次数过低的query,其本身的搜索需求较低,可以将其过滤掉,即采用上述两种剪枝策略。
剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉。
对于点击权重过低的url对应的点击次数通常较低,很有可能是由于用户的一些随意行为产生,并不表征搜索需求,因此可以将点击向量中的对应维度过滤掉。
在采用上述剪枝处理后,经试验发现,在1亿多数量的query集合上,剪枝处理得到的有效query数量大致有600万,每一个query的点击向量长度的平均值在3左右,在这样的一个稀疏数据规模上,计算相似query具有可行性。
当然,如果不考虑计算量和效率,也可以不执行本步骤。
步骤104:基于已有的实体词词典和属性词词典对各有效query进行结构化解析,得到标准query,该标准query由实体词和属性词的组合构成。
在本步骤中,对各有效query分别进行结构化解析,即判断该有效query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出实体词和属性词构成标准query。
另外在结构化解析的过程中还可以进一步结合同义词词典,将实体词词典中实体词的同义词也作为实体词,将属性词词典中属性词的同义词也作为属性词。
举个例子,对于有效query“刘德华身高是多少”,得到的标准query为“刘德华身高”,对于有效query“感冒的传播途径有哪些”,得到的标准query为“感冒传播途径”。
另外,需要说明的是,步骤102与步骤104没有固定的先后顺序,也可以在步骤104之后执行,或者与步骤104同时执行。
步骤105:针对每一个标准query分别执行步骤1051至步骤1053。
步骤105_1:计算有效query中各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query。
在本步骤中,非标准query与当前标准query的点击相似度可以通过计算非标准query的点击向量与当前标准query的点击向量之间的余弦相似度得到。
步骤105_2:将确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词。
在确定的非标准query中去除后上述相同的实体词后,剩余的词语中可能存在与当前标准query的属性词同义的词语。本步骤中进行的过滤处理可以包括但不限于以下过滤处理中的至少一种:
过滤处理1:过滤掉停用词。也就是说,过滤掉表意能力较低的词语,诸如虚词、助词、冠词、介词等。
过滤处理2:过滤掉带有数字类信息的词语,诸如阿拉伯数字、数词等。
过滤处理3:过滤掉表意求取资源的词语,诸如“跪求”、“在线观看”、“下载”等。
上述三种过滤处理都可以基于预设的词表实现。
步骤105_3:基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标准query中属性词的同义属性词。
为了识别出候选同义属性词中哪些是当前标准query中属性词的同义词,可以对各候选同义属性词进行打分。
其中,打分过程中采用的候选同义属性词与当前标准query中属性词的共现频度占比V1可以为:co_tf与ttf的比值,其中co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
候选同义属性词与当前标准query中属性词的点击相似度可以V2为:当前标准query与包含候选同义属性词的所有非标准query的点击相似度的平均值。
候选同义属性词与当前标准query中属性词的字面相似度V3可以为:候选同义属性词和当前标准query中属性词具有的相同字的数目与候选同义属性词和当前标准query具有的所有字的数目的比值。例如,候选同义属性词为“有多高”,当前标准query中属性词为“身高”,两者具有的相同字为“高”,两者具有的所有字为“有”、“多”、“高”、“身”,文本相似度为1/4=0.25。
在对候选同义属性词进行打分时,可以采用加权求和的方式,即打分值Score可以采用如下公式计算:
Score=α1×V1+α2×V2+α3×V3 (2)
其中,α1、α2和α3为预设的权值参数。
另外,本步骤中所述的预设分值要求可以包括但不限于以下分值要求中的至少一种:
分值要求1:打分值高于预设分值阈值。
分值要求2:打分值排在前N个,N为预设的正整数。
优选地,在执行步骤105_3之前,还可以执行以下步骤中的至少一个:
判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,则说明该属性词的候选同义属性词没有相对集中性,则过滤掉所有候选同义属性词,不再执行步骤105_3。
判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,则说明该属性词属于宽泛词汇,则同样说明该属性词的候选同义属性词没有集中性,不适宜确定同义属性词,过滤掉所有候选同义属性词,不再执行步骤105_3。属于宽泛词汇的诸如“电话”、“博客”等属性词。
下面针对步骤105_1至步骤105_3举一个实例,假设当前标准query为:“刘德华身高”,经过步骤105_1之后确定出点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query有:“刘德华的代表作是什么”、“刘德华多高”、“有谁知道刘德华的老婆是谁”等。
对“刘德华的代表作是什么”执行步骤105_2后得到候选同义属性词“代表作”,对“刘德华多高”执行步骤105_2后得到候选同义属性词“多高”,对“有谁知道刘德华的老婆是谁”执行步骤105_2后得到候选同义属性词“知道”、“老婆”。
对上述候选同义属性词执行步骤105_3进行打分后,最终确定出“多高”的打分值满足预设的分值要求,挖掘出“多高”作为“身高”的同义属性词。
在按照上述流程确定出各属性词的同义属性词后,可以将同义属性词加入到已有的属性词词典,供后续挖掘同义属性词时使用。
以上是对本发明所提供的方法进行的详细描述,下面通过实施例二对本发明提供的挖掘同义属性词的装置进行详细描述。
实施例二、
图2为本发明实施例二提供的装置结构图,如图2所示,该装置可以包括:数据获取单元201、结构化解析单元202、数据抽取单元203、候选词抽取单元204和同义词抽取单元205。
数据获取单元201获取query集合,具体地,可以从搜索日志中获取某个时间段内的query集合作为抽取同义词属性词的预料。
结构化解析单元202基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,标准query由实体词和属性词的组合构成。
具体地,结构化解析单元202对query进行结构化解析时,判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query;否则该query为非标准query。
另外在结构化解析的过程中还可以进一步结合同义词词典,将实体词词典中实体词的同义词也作为实体词,将属性词词典中属性词的同义词也作为属性词。
数据抽取单元203分别将各标准query作为当前标准query执行:计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且当前标准query具有相同实体词的非标准query。
候选词抽取单元204将数据抽取单元203确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词。
其中,上述过滤处理包括以下过滤处理中的至少一种:
过滤处理1:过滤掉停用词,也就是说,过滤掉表意能力较低的词语,诸如虚词、助词、冠词、介词等。
过滤处理2:过滤掉带有数字类信息的词语,诸如阿拉伯数字、数词等。
过滤处理3:过滤掉表意求取资源的词语,诸如“跪求”、“在线观看”、“下载”等。
同义词抽取单元205基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
为了实现点击相似度的计算,作为一种优选的实现方式,该装置还可以包括:向量确定单元206,用于确定query集合中各query的点击向量并提供给数据抽取单元203,query的点击向量由query对应的被点击url以及各被点击url的点击权重构成。
此时,数据抽取单元203在计算非标准query与当前标准query的点击相似度时,计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
其中,queryi的点击向量中urlj的点击权重wij可以采用queryi在urlj上的点击占比,具体可以表示为以下公式:
其中,clickij为对应于queryi时urlj的被点击次数,n为queryi对应的被点击url的总数目。
由于query集合中,各query可能具有庞大的搜索量,因此各query的点击量也可能过于庞大,在这样的数据规模上计算query之间的点击相似度复杂度过大,为了降低计算复杂度,如图3所示,该装置还可以包括:剪枝处理单元207,用于对query集合进行剪枝处理得到有效query,并将有效query提供给结构化解析单元202,其中剪枝处理采用以下剪枝策略中的至少一种:
剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query;
剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query;以及,
剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉。
此时,结构化解析单元202对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
更进一步地,参见图2和图3,该装置还可以包括:
第一计算单元208,用于计算co_tf与ttf的比值,将该比值确定为候选同义属性词与当前标准query中属性词的共现频度占比。其中co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
第二计算单元209,用于计算当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值,将该平均值确定为候选同义属性词与当前标准query中属性词的点击相似度。
第三计算单元210,用于计算候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值,将该比值确定为该候选同义属性词与当前标准query中属性词的字面相似度。
如果同义词抽取单元205同时采用了第一计算单元208计算的候选同义属性词与当前标准query中属性词的共现频度占比、第二计算单元209计算的点击相似度以及第三计算单元210计算的字面相似度,对各候选同义属性词进行打分,则可以采用加权求和的方式获得打分值,具体参照公式(2)。
优选地,该装置还包括第一判断单元211和第二判断单元212中的至少一种:
第一判断单元211,用于判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,说明该属性词的候选同义属性词没有相对集中性,则过滤掉所有候选同义属性词,禁止同义词抽取单元205对当前标准query执行操作;否则,触发同义词抽取单元205对当前标准query执行操作。
第二判断单元212,用于判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,说明该属性词属于宽泛词汇,则同样说明该属性词的候选同义属性词没有集中性,不适宜确定同义属性词,过滤掉所有候选同义属性词,禁止同义词抽取单元205对当前标准query执行操作;否则,触发同义词抽取单元205对当前标准query执行操作。
通过本发明实施例提供的上述方法和装置就能够挖掘出属性词的同义属性词,例如,“吃法”的同义属性词“怎么吃”,“长度”的同义属性词“有多长”,“年龄”的同义属性词“多大”,“播放时间”的同义属性词“什么时候播”等。在挖掘出属性词的同义属性词后,可以用于以下应用:
1)用于更新属性词词典,更新后的属性词词典继续用于挖掘同义属性词,从而逐渐完善属性词词典,并能够召回新出现的属性词表述形式。
2)用于进行同义词映射,可用于query需求识别,从而实现结构化搜索。当用户输入口语化的query时,能够通过本发明挖掘出的同义属性词,确定该query对应的标准化的属性词表述,利用该标准化的属性词表述到对应的结构化数据库中搜索结构化信息。例如,用户输入“刘德华有多高”,结合本发明挖掘出的同义属性词,确定对应的标准化表述为“刘德华身高”,从而通过结构化搜索获得刘德华的身高信息。
3)用于形成同义词词典,通过本发明挖掘出的同义属性词,可以结合进一步的筛选将具有同义关系的属性词加入同义词词典。例如,通过本发明挖掘出的尺寸的同义属性词有尺码,则可以将尺码和尺寸加入同义词词典作为一个同义词对。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (20)
1.一种挖掘同义属性词的方法,其特征在于,该方法包括:
S1、获取query集合;
S2、基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成;
S3、针对每一个标准query分别执行步骤S31至步骤S32:
S31、计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query;
S32、将所述步骤S31确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词;
S33、基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:确定所述query集合中各query的点击向量,所述query的点击向量由query对应的被点击url以及各被点击url的点击权重构成;
所述步骤S31中计算非标准query与当前标准query的点击相似度为:计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
3.根据权利要求2所述的方法,其特征在于,queryi的点击向量中urlj的点击权重wij为:
其中,clickij为对应于queryi时urlj的被点击次数,n为queryi对应的被点击url的总数目。
4.根据权利要求2或3所述的方法,其特征在于,所述步骤S2之前还包括:对所述query集合进行剪枝处理得到有效query,其中所述剪枝处理采用以下剪枝策略中的至少一种:
剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query;
剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query;以及,
剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉;
在所述步骤S2中对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
5.根据权利要求1所述的方法,其特征在于,在所述步骤S2中对query进行结构化解析具体为:
判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query;否则该query为非标准query。
6.根据权利要求1所述的方法,其特征在于,所述步骤S32中的过滤处理包括以下过滤处理中的至少一种:
过滤掉停用词;
过滤掉带有数字类信息的词语;以及,
过滤掉表意求取资源的词语。
7.根据权利要求1所述的方法,其特征在于,所述步骤S33中,候选同义属性词与当前标准query中属性词的共现频度占比为co_tf与ttf的比值;
其中所述co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,所述ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
8.根据权利要求1所述的方法,其特征在于,所述步骤S33中,候选同义属性词与当前标准query中属性词的点击相似度为:当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值。
9.根据权利要求1所述的方法,其特征在于,所述步骤S33中,候选同义属性词与当前标准query中属性词的字面相似度为:该候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值。
10.根据权利要求7所述的方法,其特征在于,在所述步骤S33之前还包括:
判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,则不执行所述步骤S33;否则,继续执行所述步骤S33;或者,
判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,则不执行所述步骤S33;否则继续执行所述步骤S33。
11.一种挖掘同义属性词的装置,其特征在于,该装置包括:
数据获取单元,用于获取query集合;
结构化解析单元,用于基于已有的实体词词典和属性词词典对query集合中的各query进行结构化解析,抽取出标准query,未抽取出标准query的query作为非标准query,所述标准query由实体词和属性词的组合构成;
数据抽取单元,用于分别将各标准query作为当前标准query执行:计算各非标准query与当前标准query的点击相似度,确定点击相似度满足预设相似度要求且与当前标准query具有相同实体词的非标准query;
候选词抽取单元,用于将所述数据抽取单元确定的非标准query中去除与当前标准query相同的实体词后,对剩余的词语进行过滤处理得到候选同义属性词;
同义词抽取单元,用于基于候选同义属性词与当前标准query中属性词的共现频度占比、点击相似度以及字面相似度中的至少一种,对各候选同义属性词进行打分,获取打分值满足预设分值要求的候选同义属性词作为当前标注query中属性词的同义属性词。
12.根据权利要求11所述的装置,其特征在于,该装置还包括:
向量确定单元,用于确定所述query集合中各query的点击向量并提供给所述数据抽取单元,所述query的点击向量由query对应的被点击url以及各被点击url的点击权重构成;
所述数据抽取单元在计算非标准query与当前标准query的点击相似度时,计算非标准query的点击向量与当前标准query的点击向量的余弦相似度。
13.根据权利要求12所述的装置,其特征在于,queryi的点击向量中urlj的点击权重wij为:
其中,clickij为对应于queryi时urlj的被点击次数,n为queryi对应的被点击url的总数目。
14.根据权利要求12或13所述的装置,其特征在于,该装置还包括:
剪枝处理单元,用于对所述query集合进行剪枝处理得到有效query,并将有效query提供给所述结构化解析单元,其中所述剪枝处理采用以下剪枝策略中的至少一种:
剪枝策略1:过滤掉搜索次数低于预设搜索次数阈值的query;
剪枝策略2:过滤掉对应url的点击总次数低于预设点击次数阈值的query;以及,
剪枝策略3:将各query的点击向量中,点击权重低于预设权重阈值的url及对应点击权重过滤掉;
所述结构化解析单元对各有效query进行结构化解析,抽取出标准query,未抽取出标准query的有效query作为非标准query。
15.根据权利要求11所述的装置,其特征在于,所述结构化解析单元对query进行结构化解析时,具体判断query中是否同时具有实体词词典中的实体词以及属性词词典中的属性词,如果是,则抽取出该query中具有实体词和属性词构成标准query;否则该query为非标准query。
16.根据权利要求11所述的装置,其特征在于,所述候选词抽取单元执行以下过滤处理中的至少一种:
过滤掉停用词;
过滤掉带有数字类信息的词语;以及,
过滤掉表意求取资源的词语。
17.根据权利要求11所述的装置,其特征在于,该装置还包括:
第一计算单元,用于计算co_tf与ttf的比值,将该比值确定为候选同义属性词与当前标准query中属性词的共现频度占比;
其中所述co_tf为候选同义属性词与当前标准query中属性词在大规模语料中的共现次数,所述ttf为各候选同义属性词与当前标准query中属性词在大规模语料中的共现次数之和。
18.根据权利要求11所述的装置,其特征在于,该装置还包括:
第二计算单元,用于计算当前标准query与包含该候选同义属性词的所有非标准query的点击相似度的平均值,将该平均值确定为候选同义属性词与当前标准query中属性词的点击相似度。
19.根据权利要求11所述的装置,其特征在于,该装置还包括:
第三计算单元,用于计算候选同义属性词和当前标准query中具有相同字的数目与该候选同义属性词和当前标准query具有的所有字的数目的比值,将该比值确定为该候选同义属性词与当前标准query中属性词的字面相似度。
20.根据权利要求17所述的装置,其特征在于,该装置还包括第一判断单元和第二判断单元中的至少一种;
所述第一判断单元,用于判断当前标准query的属性词对应的所有候选同义属性词的co_tf之和与ttf之和的比例是否小于预设的比例阈值,如果是,禁止所述同义词抽取单元对当前标准query执行操作;否则,触发所述同义词抽取单元对当前标准query执行操作;
所述第二判断单元,用于判断标准query的属性词的ttf是否大于预设的ttf阈值,如果是,禁止所述同义词抽取单元对当前标准query执行操作;否则,触发所述同义词抽取单元对当前标准query执行操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110358740.9A CN103106189B (zh) | 2011-11-11 | 2011-11-11 | 一种挖掘同义属性词的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110358740.9A CN103106189B (zh) | 2011-11-11 | 2011-11-11 | 一种挖掘同义属性词的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106189A true CN103106189A (zh) | 2013-05-15 |
CN103106189B CN103106189B (zh) | 2016-04-27 |
Family
ID=48314055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110358740.9A Active CN103106189B (zh) | 2011-11-11 | 2011-11-11 | 一种挖掘同义属性词的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103106189B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102738A (zh) * | 2014-07-28 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106777283A (zh) * | 2016-12-29 | 2017-05-31 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN107688563A (zh) * | 2016-08-05 | 2018-02-13 | 中国移动通信有限公司研究院 | 一种同义词的识别方法及识别装置 |
CN107885875A (zh) * | 2017-11-28 | 2018-04-06 | 北京百度网讯科技有限公司 | 检索词的同义变换方法、装置及服务器 |
CN108304417A (zh) * | 2017-01-13 | 2018-07-20 | 北京京东尚科信息技术有限公司 | 信息处理方法和信息处理装置 |
CN108334631A (zh) * | 2018-02-24 | 2018-07-27 | 武汉斗鱼网络科技有限公司 | 用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备 |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN110889050A (zh) * | 2018-09-07 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种泛品牌词的挖掘方法及装置 |
CN116089459A (zh) * | 2023-04-10 | 2023-05-09 | 联仁健康医疗大数据科技股份有限公司 | 数据检索方法、装置、电子设备及存储介质 |
US12026157B2 (en) | 2021-05-27 | 2024-07-02 | International Business Machines Corporation | Narrowing synonym dictionary results using document attributes |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101184A (ja) * | 1999-10-01 | 2001-04-13 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 |
CN1535428A (zh) * | 2001-07-26 | 2004-10-06 | �Ҵ���˾ | 数据处理方法、数据处理系统和程序 |
CN1774713A (zh) * | 2002-03-12 | 2006-05-17 | 威乐提公司 | 使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序 |
CN101149747A (zh) * | 2006-09-21 | 2008-03-26 | 索尼株式会社 | 用于处理信息的装置和方法、以及程序 |
CN101878476A (zh) * | 2007-06-22 | 2010-11-03 | 谷歌公司 | 用于查询扩展的机器翻译 |
CN101901235A (zh) * | 2009-05-27 | 2010-12-01 | 国际商业机器公司 | 文档处理方法和系统 |
-
2011
- 2011-11-11 CN CN201110358740.9A patent/CN103106189B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001101184A (ja) * | 1999-10-01 | 2001-04-13 | Nippon Telegr & Teleph Corp <Ntt> | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 |
CN1535428A (zh) * | 2001-07-26 | 2004-10-06 | �Ҵ���˾ | 数据处理方法、数据处理系统和程序 |
CN1774713A (zh) * | 2002-03-12 | 2006-05-17 | 威乐提公司 | 使用语汇数据库用以命名萃取自文件组中的字汇群集和词组群集的方法、系统和计算机程序 |
CN101149747A (zh) * | 2006-09-21 | 2008-03-26 | 索尼株式会社 | 用于处理信息的装置和方法、以及程序 |
CN101878476A (zh) * | 2007-06-22 | 2010-11-03 | 谷歌公司 | 用于查询扩展的机器翻译 |
CN101901235A (zh) * | 2009-05-27 | 2010-12-01 | 国际商业机器公司 | 文档处理方法和系统 |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102738A (zh) * | 2014-07-28 | 2014-10-15 | 百度在线网络技术(北京)有限公司 | 一种扩充实体库的方法及装置 |
CN107688563B (zh) * | 2016-08-05 | 2021-03-19 | 中国移动通信有限公司研究院 | 一种同义词的识别方法及识别装置 |
CN107688563A (zh) * | 2016-08-05 | 2018-02-13 | 中国移动通信有限公司研究院 | 一种同义词的识别方法及识别装置 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106571139B (zh) * | 2016-11-09 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106777283A (zh) * | 2016-12-29 | 2017-05-31 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN106777283B (zh) * | 2016-12-29 | 2021-02-26 | 北京奇虎科技有限公司 | 一种同义词的挖掘方法及装置 |
CN108304417A (zh) * | 2017-01-13 | 2018-07-20 | 北京京东尚科信息技术有限公司 | 信息处理方法和信息处理装置 |
CN109002432A (zh) * | 2017-06-07 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN109002432B (zh) * | 2017-06-07 | 2022-01-04 | 北京京东尚科信息技术有限公司 | 同义词的挖掘方法及装置、计算机可读介质、电子设备 |
CN107885875A (zh) * | 2017-11-28 | 2018-04-06 | 北京百度网讯科技有限公司 | 检索词的同义变换方法、装置及服务器 |
CN108334631A (zh) * | 2018-02-24 | 2018-07-27 | 武汉斗鱼网络科技有限公司 | 用于挖掘直播间搜索词的同义词的方法、相关存储介质和设备 |
CN110889050A (zh) * | 2018-09-07 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种泛品牌词的挖掘方法及装置 |
US12026157B2 (en) | 2021-05-27 | 2024-07-02 | International Business Machines Corporation | Narrowing synonym dictionary results using document attributes |
CN116089459A (zh) * | 2023-04-10 | 2023-05-09 | 联仁健康医疗大数据科技股份有限公司 | 数据检索方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103106189B (zh) | 2016-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106189A (zh) | 一种挖掘同义属性词的方法和装置 | |
CN104598535B (zh) | 一种基于最大熵的事件抽取方法 | |
CN110781317A (zh) | 事件图谱的构建方法、装置及电子设备 | |
EP3096246A1 (en) | Method, system and storage medium for realizing intelligent answering of questions | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN106886567B (zh) | 基于语义扩展的微博突发事件检测方法及装置 | |
CN106649768A (zh) | 基于深度问答的问答澄清方法和装置 | |
CN109522420B (zh) | 一种获取学习需求的方法及系统 | |
CN105893444A (zh) | 情感分类方法及装置 | |
CN104199972A (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN106777957B (zh) | 不平衡数据集上生物医学多参事件抽取的新方法 | |
CN101957845B (zh) | 一种在线应用系统及其实现方法 | |
CN105912629A (zh) | 一种智能问答方法及装置 | |
US20190171713A1 (en) | Semantic parsing method and apparatus | |
KR20120014277A (ko) | 상품평 극성 분류를 위한 특징별 서술어 긍정 및 부정 사전 자동 구축 시스템 및 방법 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN108363784A (zh) | 一种基于文本机器学习的舆情走向预测方法 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN106372118A (zh) | 面向大规模媒体文本数据的在线语义理解搜索系统及方法 | |
CN110442730A (zh) | 一种基于deepdive的知识图谱构建方法 | |
CN106202039B (zh) | 基于条件随机场的越南语组合词消歧方法 | |
CN108416034A (zh) | 基于金融异构大数据的信息采集系统及其控制方法 | |
CN103744889A (zh) | 一种用于对问题进行聚类处理的方法与装置 | |
CN102609539A (zh) | 一种搜索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |