CN110008309B - 一种短语挖掘方法及装置 - Google Patents

一种短语挖掘方法及装置 Download PDF

Info

Publication number
CN110008309B
CN110008309B CN201910219059.2A CN201910219059A CN110008309B CN 110008309 B CN110008309 B CN 110008309B CN 201910219059 A CN201910219059 A CN 201910219059A CN 110008309 B CN110008309 B CN 110008309B
Authority
CN
China
Prior art keywords
phrase
phrases
candidate
quality
sample set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910219059.2A
Other languages
English (en)
Other versions
CN110008309A (zh
Inventor
谢润泉
李贵洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910219059.2A priority Critical patent/CN110008309B/zh
Publication of CN110008309A publication Critical patent/CN110008309A/zh
Application granted granted Critical
Publication of CN110008309B publication Critical patent/CN110008309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及计算机技术领域,尤其涉及一种短语挖掘方法及装置,该方法为,基于预设策略,获取候选短语集;根据预设过滤规则,对候选短语集进行过滤;针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;根据各候选短语的质量分值,筛选出满足预设质量条件的短语,这样,综合考虑多个维度的特征信息,使得筛选出的短语更加合理,提高短语挖掘的准确性。

Description

一种短语挖掘方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种短语挖掘方法及装置。
背景技术
自然语言处理中,通常首先需要将文本字符串表示成计算机能处理的数值向量。常用的方法可以基于不同粒度表示文本,并且为更加准确,考虑词与词之间的关联关系,可以采用短语(phrase)粒度来表示文本。
现有技术中,phrase挖掘方法,主要是采用频次统计的方法,一个候选phrase出现次数越多,则成为高质量phrase的可能性就越大,但是现有技术中的这种方式,考虑的维度较少,容易导致挖掘的phrase不合理,降低了准确性。
发明内容
本发明实施例提供一种短语挖掘方法及装置,以解决现有技术中短语挖掘准确性低,容易导致出现不合理短语的问题。
本发明实施例提供的具体技术方案如下:
本发明一个实施例提供了一种短语挖掘方法,包括:
基于预设策略,获取候选短语集;
根据预设过滤规则,对候选短语集进行过滤;
针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;
基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;
根据各候选短语的质量分值,筛选出满足预设质量条件的短语。
本发明另一个实施例提供了一种短语挖掘装置,包括:
候选短语获取模块,用于基于预设策略,获取候选短语集;
规则过滤模块,用于根据预设过滤规则,对候选短语集进行过滤;
特征获取模块,用于针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;
质量分值获取模块,用于基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;
筛选模块,用于根据各候选短语的质量分值,筛选出满足预设质量条件的短语。
本发明另一个实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时上述任一种短语挖掘方法的步骤。
本发明另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种短语挖掘方法的步骤。
本发明实施例中,基于预设策略,获取候选短语集;根据预设过滤规则,对候选短语集进行过滤;针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;根据各候选短语的质量分值,筛选出满足预设质量条件的短语,这样,分别通过过滤规则和精选短语质量模型进行过滤,筛选出满足质量条件的短语,更加简单,效率也更高,并且基于精选短语质量模型进行过滤时,综合考虑多个维度的特征信息,使得筛选出的短语更加合理,更符合高质量短语的要求,提高短语挖掘的准确性。
附图说明
图1为本发明实施例中一种短语挖掘方法流程图;
图2为本发明实施例中短语类别的标签示意图;
图3为本发明实施例中短语类别的搜索结果示意图;
图4为本发明实施例中内凝度特征维度中一种基于搜索结果的特征界面示意图;
图5为本发明实施例中内凝度特征维度中另一种基于搜索结果的特征界面示意图;
图6为本发明实施例中内凝度特征维度中另一种基于搜索结果的特征界面示意图;
图7为本发明实施例中内凝度特征维度中基于语言模型的特征原理示意图;
图8为本发明实施例中内凝度特征维度中基于语言模型的短语举例示意图;
图9为本发明实施例中完整性维度中左转移概率举例示意图;
图10为本发明实施例中完整性维度中邻接词紧密度举例示意图;
图11为本发明实施例中短语挖掘方法的整体原理框架图;
图12为本发明实施例中auto_phrase方法原理流程图;
图13为本发明实施例中过滤规则示意图;
图14为本发明实施例中phrase在线识别实例示意图;
图15为本发明实施例中基于新旧短语词典的短语识别对比结果示意图;
图16为本发明实施例中短语挖掘装置结构示意图;
图17为本发明实施例中电子设备的应用架构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,并不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面先对几个概念进行简单介绍:
短语(phrase):主要是表示通常整体使用的词组,可以使用phrase粒度来表示文本,其中,本发明实施例中定义高质量短语为语义完备的最小词组。
文档频率(document frequency,df):表示对于一个特征词,它出现在了多少个文档中,本发明实施例中,将df简称为频次。
逆向文档频率(inverse document frequency,idf):是一个词语普遍重要性的度量,某一特定词语的idf,可以由总文档数目除以包含该词语的文档的数目,再将得到的商取对数得到。
词频(term frequency,TF):表示某一个给定的词语在该文件中出现的频率。
词频-逆向文档频率(term frequency-inverse document frequency,TF-IDF):是一种统计方法,用以评估一个字词对于一个文档集合或一个语料库中的其中一份文档的重要程度。
修正后的文档频率(rectified document frequency,rdf):本发明实施例中指基于本发明实施例中auto_phrase方法,重新统计的考虑上下文的修正后的频次,本发明实施例中将rdf简称为修正后的频次。
搜索次数(query view,qv):表示问题(query)的搜索次数。
点互信息(Pointwise Mutual Information,pmi):衡量两个事物之间的相关性。
基于n-gram的逆向文档频率(n-gram-idf):本发明实施例中可以基于n-gram-idf来表示短语的信息量维度的特征,相比于idf,n-gram-idf可以在同一维空间内比较任意长度n-gram短语的重要性。
n-gram短语:表示分词结果中相邻n个词组成的词组。
动态规划算法:通常用于求解具有某种最优性质的问题,动态规划是一种将问题实例分解为更小的、相似的子问题,并存储子问题的解而避免计算重复的子问题,以解决最优化问题的算法策略。
协同训练(co-training):是一种半监督学习方法,主要原理是利用少量已标记样本,通过两个或多个模型去学习,对未标记样本进行标记,挑选置信度较高的样本加入已标记样本。
梯度提升决策树(Gradient Boosting Decision Tree,GBDT):是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。
嵌入(Embedding)方法:是一种比较经典的衡量语义信息的文本表示方法。
自然语言处理中,通常首先需要将文本字符串表示成计算机能处理的数值向量。常用的方法例如基于不同粒度的词袋模型(bag of words)方法,其中,常用的粒度是分词工具产生的词粒度,例如query:“机器学习的应用”可以被划分成“机器/学习/的/应用”。词粒度是语义明确下的最小粒度,但是通常词与词之间存在一定的关联关系,独立的以词粒度进行文本表示会导致一些错误的分析结果。例如上述query中,“机器”可替换成“机械”,“学习”可替换成“读书”,显然这种缺乏上下文信息的以词粒度进行同义替换会产生一些不合理的替换。因此在词粒度的基础上,为更加准确,考虑词与词之间的关联关系,可以采用phrase粒度,phrase模块分析词与词之间的关系,粘贴并提取文本中出现的phrase,使用phrase粒度来表示文本。例如,上述query可以被划分为“机器学习/的/应用”,这时若知道“机器学习”是一个phrase的先验信息,则可以正确的将“机器学习”同义替换成“machinelearning”。
并且,在搜索应用场景中,phrase模块对于query分析和文档(Document,doc)排序都有着重要的作用。在query分析中,例如,计算query:“我/的/父亲/母亲/在线/观看”的词权重,无论采用哪种词权重方法计算的“我”和“的”的权重都不会很高,但若已知“我的父亲母亲”是一个phrase,则可结合该phrase先验信息对“我”和“的”的权重进行调整而得到合理的权重。又例如,分词模块也会存在粒度太细或者错误的问题,例如“美/的/空调”被分成“美”和“的”,分词不合理会造成后续一系列模块计算错误,若能够识别出“美的”是个phrase,后续模块可结合phrase先验信息避免进一步错误。在doc排序中,若能够正确的识别出query中出现的phrase,则可以优先返回搜索结果中phrase命中的doc,例如,假设query:“北京/大学”,其对应的搜索结果中有三个候选doc,分别为doc1:“北京/理工/大学”,doc2:“北京/大学/地址”,doc3:“北京/大学/生/运动/会”,此时若知道“北京大学”是个phrase,则可以优先返回精确匹配该phrase的doc2,其中,doc3虽然也紧邻命中“北京大学”,但是“大学”和后面的“生”也是一个紧密的phrase,因此,也不会优先返回doc3。因此,可知更准确和合理的phrase挖掘,对于query识别、搜索等应用场景都是很有必要的。
现有技术中,phrase挖掘方法,主要是采用频次统计的方法,但是现有技术中频次统计没有考虑上下文,不能真正的反映phrase质量,这是因为,传统的频次统计,无论候选phrase出现在文本何处,都会对其频次+1,会造成统计偏差,例如,可能“抖音网”相比于“抖音网红”的频次(df)更高,但通常“抖音网”是和后面的“红”字作为一个整体出现,因此“抖音网红”相比于“抖音网”更适合作为一个高质量phrase,因此这时应该只有“抖音网红”的频次+1,“抖音网”的频次不应该+1,因此,没有考虑上下文的统计的频次并不能真正反映phrase的质量。
并且,现有技术中考虑的维度较少,不能全面考虑高质量phrase的各维度的特征信息,容易导致挖掘的phrase不合理,降低准确性。
因此,本发明实施例中提供一种短语挖掘方法,获取候选短语集,根据预设过滤规则,对候选短语集进行过滤,可以对候选短语集进行粗过滤,充分考虑热度特征、信息量特征、内凝度特征和完整性特征,根据精选短语质量模型对过滤后的候选短语集再次进行精细过滤筛选,获得多个维度中每个维度的特征信息,基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,根据各候选短语的质量分值,筛选出满足预设质量条件的短语,从而提高短语挖掘的准确性,使得挖掘出的短语更加合理。
需要说明的是,本发明实例中短语挖掘方法主要是由服务器执行,获得挖掘出的短语结果。其中,服务器可以是一台服务器、若干台服务器组成的服务器集群或云计算中心,对此并不进行限制。
参阅图1所示,为本发明实施例中短语挖掘方法的流程图,该方法包括:
步骤100:基于预设策略,获取候选短语集。
本发明实施例中提供了几种获取候选短语集的策略,候选短语集满足以下策略中的至少一个策略:
第一种策略:基于预设词库或知识库,从原始语料中获取候选短语集。
这种方式,主要是可以直接根据现有的词库或知识库资源,来获取候选短语集。例如,基于查询重写(query rewrite,qrw)旧词典、百科实体、输入法词库或者垂类资源等,获取候选短语集,本发明实施例中并不进行限制。
第二种策略:本发明实施例中提供了一种自动挖掘候选短语集的方法,称为auto_phrase方法,auto_phrase是一种基于大规模文本语料的phrase自动挖掘工具,基本原理为训练得到粗选短语质量模型,预测短语质量分值,基于phrase质量分值,利用动态规划算法,对文本语料寻找最合理的划分,可以重新统计出考虑上下文的修正后的频次rdf。
则基于预设策略,获取候选短语集,具体包括:
1)从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语。
其中,获得分词结果的方式并不进行限制,可以采用现有的分词方式,获得分词结果后,可以基于n-gram模型生成n-gram短语,并统计各n-gram短语的频次,筛选出高频次的n-gram短语。
2)基于粗选短语质量模型,分别确定筛选出的n-gram短语的质量分值,并基于各n-gram短语的质量分值,确定候选短语集;其中粗选短语质量模型用于根据n-gram短语的简单特性信息确定质量分值。
其中,本发明实施例中粗选短语质量模型是相较于精选短语质量模型而言,训练粗选短语质量模型的特征信息可以是训练精选短语质量模型的特征信息的子集,为简单的易获取的特征信息。
进而可以理解基于粗选短语质量模型确定质量分值,是一种粗略的估计,可以在一定程度上过滤低质量的短语。
进一步地,本发明实施例中还提供了一种粗选短语质量模型的训练方式,具体为:
S1、获取正样本集和负样本集。
具体包括:从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语;分别针对筛选出的n-gram短语,将存在于预设实体库中的n-gram短语,作为正样本集,并将未存在于预设实体库中的n-gram短语,作为负样本集。
其中,预设实体库可以根据选取的高qv的百科词条构建,为一种phrase知识库,具体设置方式并不进行限制,主要目的是为粗选短语质量模型提供正例样本。
进而根据实体库,可以将获取到的频次较高的n-gram短语,分为正样本集和负样本集,在实体库中的作为正样本,不在实体库中的作为负样本。
需要说明的是,这时获取的负样本集是有一定噪音的,可能会存在一些因不在实体库中而被误标记为负样本的n-gram短语,但是这种比例是非常小的,统计发现只有10%的基于n-gram模型筛选出的n-gram短语是高质量的短语,并且在粗选短语质量模型训练中,可以采用集成学习方法,也可以在一定程度上降低负样本集的噪音带来的影响。并且,由于这时是为了获得初始的候选短语集,因此对于正样本集和负样本集,以及训练得到的粗选短语质量模型要求不需要很高,可以允许一定误差和噪音。
S2、分别提取正样本集和负样本集的简单特征信息,并根据正样本集和负样本集的简单特征信息,训练得到粗选短语质量模型。
例如,可以分别从正样本集和负样本集中随机选取k个样本组成训练集,并提取训练集中各样本的简单特征信息,基于各样本的简单特征信息训练粗选短语质量模型。
其中,简单特征信息为一些比较简单容易统计和提取的特征信息,例如可以一些简单的语义相关的特征信息,也可以为形式特征信息等,例如idf、df、标点符号、pmi等,本发明实施例中并不进行限制,进而训练得到的粗选短语质量模型可以在一定程度上预测短语的质量分值,进行候选短语挖掘。
这里的简单特征信息和粗选短语质量模型区别于本发明实施例中的精选短语质量模型和构建精选短语质量模型的多维度特征信息,构建精选短语质量模型的多维度特征信息为更加复杂,为全面衡量高质量短语的多个维度的特征信息,例如包括热度、信息量、内凝度和完整性特征等,因此得到的精选短语质量模型也更加准确,基于精选短语质量模型确定的质量分值也更加准确,目的是从候选短语中挖掘出更加准确、更加合理的短语。
S3、基于粗选短语质量模型,确定各n-gram短语的质量分值。
S4、根据动态规划算法和各n-gram短语的质量分值,对原始语料进行重新分词。
这样,基于动态规划算法,可以在各n-gram短语的质量分值基础上重新确定文本语料合适的划分,例如可以将质量分值较高的n-gram短语划分为一个整体词组。
S5、根据原始语料重新分词后的分词结果,重新统计各n-gram短语的频次,并将重新统计的频次更新到正样本集和负样本集的简单特征信息中,基于更新后的正样本集和负样本集的简单特征信息,重新训练粗选短语质量模型,直至达到预设迭代次数,获得最终训练的粗选短语质量模型。
其中,重新统计的频次即为本发明实施例中的rdf,相较于传统的统计频次,rdf为考虑上下文的修正后的频次,更加准确,更能反映短语的质量。
这样,可以将重新统计的rdf作为反馈特征更新到训练集的简单特征信息中,重新训练粗选短语质量模型,提高粗选短语质量模型的准确性。
其中,预设迭代次数可以根据实际需求和情况进行设置,例如4次,本发明实施例中并不进行限制。
这样,本发明实施例中,可以基于auto_phrase方法自动挖掘出候选短语集,并且同时还可以获得rdf、粗略估计的短语的质量分值,以及用于根据动态规划算法和质量分值进行分词的分词模型,其中,rdf和粗短估计的质量分值还可以用于后续候选短语的过滤中。
进而可以将基于上述第一种策略和第二策略获得候选短语集进行合并,得到最终的候选短语集。
步骤110:根据预设过滤规则,对候选短语集进行过滤。
具体地,从候选短语集中过滤掉的候选短语满足以下过滤规则中至少一个过滤规则,并同时不满足来源数不小于设定数目,或为搜索次数大于设定次数的实体短语,其中,过滤规则包括:
1)以停用词开头或以停用词结尾的候选短语。
2)满足预设语法规则的候选短语。
例如,语法规则为“介词+动词”、“数量+量词”,该语法规则的短语通常不是高质量的phrase,因此过滤掉这部分phrase。
3)紧密度小于第一阈值的候选短语。
具体地:获取候选短语分词后词之间的紧密度,平均紧密度小于第一阈值的候选短语被过滤掉,说明不是高质量的短语。
4)满足预设冗余信息模板的候选短语。
其中,预设冗余信息模板,可以人工进行整理,本发明实施例中并不进行限制,例如,“BEGIN什么是”、“txt下载END”;又例如一些金钱表达模板,例如“三块钱”,数量表达模板,例如“15斤”,日期表达模板,例如“10月3日”等。
5)在搜索结果中完全命中比例小于第二阈值的候选短语。
其中,搜索结果可以为候选短语在预设搜索引擎中的搜索结果,例如,为候选短语在百度搜索引擎的搜索结果,若在搜索结果中,候选短语紧邻完全命中的比例小于第二阈值,说明该候选短语本身紧密性不是很高,可以分开使用,为高质量短语可能性较小,因此可以被过滤掉。
6)基于粗选短语质量模型,确定的质量分值小于第三阈值的候选短语。
即基于在获取候选短语集时得到的粗选短语质量模型,确定的质量分值,可以过滤掉一些低质量的候选短语。
7)根据预设搜索引擎的搜索日志,确定的搜索次数小于第四阈值的候选短语。
其中,预设搜索引擎可以为有搜索功能的应用程序,例如微信、各浏览器等,本发明实施例中并不进行限制,可以获取其相关的搜索日志,过滤掉一些低搜索次数的候选短语。
8)确定的热度小于第五阈值的人名的候选短语。
候选短语中可能会有大量人名,但人名对于高质量短语判断干扰比较大,因此,本发明实施例中只保留一些比较热门的人名,将热度较小的为人名的候选短语过滤掉。
9)确定的频次大于第六阈值但信息量小于第七阈值的候选短语。
该过滤规则主要针对一些使用频次很高但信息量很低的候选短语,例如,“什么意思”、“怎么办”等,通常也会在基于过滤规则过滤时被过滤掉。
本发明实施例中,给出了几种过滤规则,当然并不仅限于上述几种过滤规则,可以根据实际情况进行设置,目的是为了对候选短语集进行初步过滤,也可以提高后续基于精选短语质量模型的过滤筛选效率,降低复杂性。
步骤120:针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息。
本发明实施例中,在基于过滤规则过滤后,可以过滤掉一部分候选短语,但单一规则或策略不能完全过滤低质量短语,因此,进一步地,引入更多维度的特征信息,通过精选短语质量模型进行细过滤。
其中,设定的多个维度中每个维度的特征信息至少包括:热度维度特征、信息量维度特征、内凝度维度特征和完整性维度特征。
步骤130:基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值。
其中,精选短语质量模型可以为二分类模型,这是因为二分类模型的训练集的人工标注和自动构建都比较清晰简单,例如精选短语质量模型可以为GBDT模型,本发明实施例中并不进行限制。
这样,可以综合考虑候选短语的热度、信息量、内凝度和完整性等多维特征,确定候选短语的质量分值,提高准确性,从而使得筛选出的候选短语更加合理性。
步骤140:根据各候选短语的质量分值,筛选出满足预设质量条件的短语。
执行步骤140时,具体包括:筛选出质量分值大于设定值的候选短语,作为满足预设质量条件的短语,即可以作为高质量短语。
进一步地,筛选出满足预设质量条件的短语后,本发明实施例中还提供了一种可能的实施方式,分别确定筛选出的短语的类别,具体包括:
S1、分别获取短语在搜索引擎中对应的标签,并将对应的标签映射到预定义的类别。
其中,预定义的类别可以根据实际情况和需求进行设置,例如设置的类别有“新词”、“音译词”、“视频”、“小说”、“游戏”、“体育”等等,本发明实施例中并不进行限制。
例如,参阅图2所示,为本发明实施例中短语类别的标签示意图,如图2所示,在搜索引擎例如百度百科上,通常某个词条是具有标签的,即图2中所示的“开放分类”或“词条标签”所示的标签,例如“英雄岛”,其标签为“网络游戏”、“即时战斗”,可以根据其标签,映射到预定义的类别中,例如,设定“网络游戏”标签对应的类别为“游戏”,则可以确定该短语的类别为“游戏”。
S2、根据短语在搜索引擎的搜索结果中对应的统一资源定位符(UniformResource Locator,url)所属的类别,修正标签映射的类别。
实际中,通常得到的搜索结果会对应有一个链接,并且链接的地址是与其类别有一定关联关系,可以预先通过人工整理一些各个类别的url,参阅图3所示,为本发明实施例中短语类别的搜索结果示意图,如图3所示,搜索短语“如懿传”,其搜索结果例如有“如懿传高清视频在线观看腾讯视频”等,从图3可知该条搜索结果对应的url为“v.qq.com”,基于预先整理的各个类别的url,可以得知该url所属的类别可以为视频。
又例如,一些链接如sport.qq.com、hupu.com,可知其都是有体育意图的url,可以确定其对应的类别为体育或运动。
这样,本发明实施例中,筛选出高质量短语后,进一步确定短语类别,可以赋予文本字符串更多的知识意义,进而在基于短语的业务应用场景,可以在识别短语的同时获知其类别,这样能够给业务应用场景后续操作提供更丰富的先验信息。
进一步地,本发明实施例中筛选出满足预设质量条件的短语,并确定出其类别后,还包括:根据筛选出的短语,以及筛选出的短语的类别,建立并更新短语词典。这样,可以将该短语词典应用到各种自然语言处理的业务应用场景,提高其效果和准确性。
本发明实施例中,获取候选短语集,根据预设过滤规则,对候选短语集进行过滤,并针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息,基于精选短语质量模型,确定各候选短语的质量分值,进而根据各候选短语的质量分值,筛选出满足预设质量条件的短语,这样,先基于过滤规则进行过滤,可以过滤掉一部分低质量短语,实现简单,然后综合考虑多维度的特征信息,根据精选短语质量模型再次进行过滤,可以进行更加精细的过滤筛选,并且充分考虑多维度的特征信息,使得筛选出的短语更加符合高质量短语的要求,更加合理,提高短语挖掘的准确性。
基于上述实施例,下面分别具体介绍下本发明实施例中精选短语质量模型的训练方式,以及设定的多个维度中每个维度的特征信息。
精细短语质量模型的训练方式为:
S1、确定训练正样本集和训练负样本集。
具体包括:1)获取搜索次数大于设定次数并在点击文本中紧邻的实体短语,并作为训练正样本集,以及根据训练正样本集和短语包含关系,将包含训练正样本集中短语的父短语或被包含在训练正样本集中短语的子短语,作为训练负样本集。
即可以将一些搜索次数较高并且在点击doc中紧邻的百科实体,作为高质量的短语,添加到训练正样本集中,进而可以根据高质量短语的特点,高质量短语应该为语义完备的最小词组,因此,可以将训练正样本的父短语和子短语,作为训练负样本。
例如,若“朋友圈”为训练正样本,则其父短语“分享到朋友圈”、“微信朋友圈”可以作为训练负样本。
又例如,“无问西东”为训练正样本,则其子短语“无问西”,父短语“无问西东观看”可以作为训练负样本。
2)根据协同训练算法,获取训练正样本和训练负样本,并将获取的训练正样本和训练负样本,分别更新到训练正样本集和训练负样本集。
其中,协同训练(co-training)算法是一种半监督学习方法,可以同时训练两个预测短语质量模型,来获得更多的训练正样本和训练负样本。
具体为:基于下述a)-c)步骤,循环迭代k次:
a)根据样本同时训练两个预测短语质量模型。
其中,训练预测短语质量模型时,可以提取样本的不同特征信息,具体并不进行限制。
b)基于训练的两个预测短语质量模型,若对某样本预测为高质量短语的概率均大于一定值,例如均大于0.75,则确定该样本为训练正样本,若对某样本预测为高质量短语的概率均小于一定值,例如均小于0.25,则确定该样本为训练负样本,进而将确定的训练正样本和训练负样本,分别更新到训练正样本集和训练负样本集中。
c)针对基于两个预测短语质量模型,预测概率处于中间值范围,无法确定其为训练正样本或训练负样本的样本,可以选择其中部分或全部,由人工重新进行标注,并将标注后的训练正样本和训练负样本,分别更新到训练正样本集和训练负样本集中,以进一步扩充训练正样本集和训练负样本集。
进一步地,本发明实施例中还可以基于人工标注获取一部分初始训练正样本和初始训练负样本,进而也可以根据该人工标注的初始训练正样本和初始训练负样本,生成更多的训练正样本和训练负样本。
S2、分别提取训练正样本集和训练负样本集中各样本设定的多个维度中每个维度的特征信息。
其中,设定的多个维度中每个维度的特征信息至少包括:热度维度特征、信息量维度特征、内凝度维度特征和完整性维度特征。
S3、根据训练正样本集和负样本集的各样本设定的多个维度中每个维度的特征信息,构建精选短语质量模型。
其中,精选短语质量模型,可以采用GBDT模型,GBDT模型是一个高鲁棒性的集成树模型,采用集成树分类器,比较简单,也可以在一定程度上缓解候选短语集中存在的噪音问题,当然,还可以采用其它模型,本发明实施例中并不进行限制。
下面对本发明实施例中设定的多个维度中每个维度的特征信息进行具体说明:
本发明实施例中,通过分析整理短语的特点,总结短语可以定义为语义完备的最小词组,则短语的质量分值表示短语是语义完备的最小词组的概率,其中,语义完备要求短语能够完整的表示某个特定主题,最小词组要求短语不存在冗余信息,因此,高质量短语应该满足以下4个条件,即包括以下4个维度的特征信息:
a)热度(Popularity):需要有一定的热度。
具体地:热度特征包括以下至少一个:搜索次数、频次。
其中,这里的频次为在候选短语集挖掘时,基于auto-phrase重新统计的频次,即修正后的频次rdf。
即高质量短语通常是有一定的热度的,热度可以用搜索次数(qv)、频次来表征,例如,通常质量分值“信息检索”>“多语种信息检索”。
b)信息量(Informative):需要包含一定的信息量,表示某个特定话题。
具体地信息量特征可以包括以下至少一个:
1)基于语言模型的逆向文档频率。
其中,将基于语言模型的逆向文档频率记为n-gram-idf,n-gram-idf可以在同一维空间内比较任意长度n-gram的重要性,其计算公式如下:
Figure BDA0002003001090000161
其中,g表示短语,df(g)表示n-gram g紧邻出现在doc的频次,df(θ(g))表示n-gram g非紧邻出现在doc的频次,公式前半部分表示n-gram出现次数越少,越有信息量,后半部分表示n-gram紧邻和非紧邻出现次数越接近,n-gram内凝度越高,重要性越高。
2)分词后平均每个分词的逆向文档频率。
可以将候选短语分词后平均每个词的逆向文档频率(idf)记为avg_term_idf。
3)分词后平均每个分词的重要性。
将候选短语分词后平均每个词的重要性记为avg_term_imp。
这样,可以基于上述参数,一定程度上表征信息量维度的特征信息,例如,“今天早晨”、“该文中”虽然频次很高,但不表示特定话题,信息量低。
c)内凝度(Concordance):内凝度通常比较高。
其中,内凝度表征短语的词与词之间的相关性,高质量短语的内凝度通常是比较高的。
具体地内凝度可以采用以下几方面表征:
第一方面:基于搜索引擎的搜索结果。
包括以下至少一个:1)基于预设搜索引擎的搜索结果中完全命中比例和命中为子候选短语的比例。
具体地,获取候选短语在某搜索引擎的搜索结果,通常搜索结果中命中的部分会高亮显示,例如会标红显示,可以根据高亮显示的部分,计算候选短语完全命中比例,即高亮显示的部分完全等于该候选短语的比例,并计算命中为子候选短语的比例,即高亮显示的部分是该候选短语的子集的比例,可知,完全命中比例越大,命中为子候选短语的比例越小,则候选短语的内凝度越大。
例如,参阅图4所示,为本发明实施例中内凝度特征维度中一种基于搜索结果的特征界面示意图,如图4所示,候选短语为“腾讯应用宝”,以“腾讯应用宝”作为query,可以获得其相应的搜索结果,图4中加粗的部分为其中部分高亮显示的内容,可以基于首页或选定前几页的搜索结果,计算高亮显示的内容的完全命中比例和命中为子候选短语的比例。
2)搜索结果中各结果项的标题按照标点符号和停用词切分后的切分结果中包含候选短语的结果项的比例。
具体地,按照标点符号、停用词,分别对搜索结果中各结果项的标题进行切分,获得各结果项切分后的子串集,分别计算各结果项的子串集中是否存在子串等于候选短语,并计算获得存在子串等于候选短语的结果项的比例,存在子串等于候选短语的结果项的比例越大,则候选短语的内凝度越大。
例如,参阅图5所示,为本发明实施例中内凝度特征维度中另一种基于搜索结果的特征界面示意图,如图5所示,候选短语为“平凡的世界”,以该候选短语为搜索词,获得其相应的搜索结果,例如对其中一个结果项的标题“平凡的世界小说《平凡的世界》全文免费在线阅读作者路遥”,按照标点符号和停用词进行切分后,由于存在符号“《》”,因此切分后得到的子串集会存在等于候选短语“平凡的世界”的子串。
3)相关搜索结果中候选短语紧邻出现的比例。
具体地,在相关搜索结果中候选短语紧邻出现的比例越大,则候选短语的内凝度越大。
例如,参阅图6所示,为本发明实施例中内凝度特征维度中另一种基于搜索结果的特征界面示意图,通常在搜索结果界面的下方设置有相关搜索功能,如图6所示,候选短语为“平凡的世界”,其对应的相关搜索结果,例如有“平凡的世界小说”、“平凡的世界2田晓霞复活”、“平凡的世界全集”等,可知,这几个相关搜索结果中,“平凡的世界”都是紧邻出现的,紧邻出现的比例较大,说明该候选短语“平凡的世界”的内凝度较大。
第二方面:基于语言模型。
包括:基于训练的两个不同维度的语言模型,计算的得分的交叉熵。
本发明实施例中,考虑到若候选短语是一个高质量的短语,则其分词结果中词与词之间应该存在紧密的关联关系,因此,基于该原理,分别训练两个语言模型,例如分别为unigram语言模型和4-gram语言模型,设置前景语料(foreground,fg),其中,将基于fg的unigram语言模型记为lm_fg_1,将基于fg的4-gram语言模型记为lm_fg_4,则分别计算候选短语在这两个语言模型的得分,并计算得分的交叉熵,记为loss(lm_fg_1,lm_fg_4),这样,可以根据loss(lm_fg_1,lm_fg_4)来衡量phrase的内凝度,loss越大,内凝度越大。
另外,本发明实施例中还可以构建合适的背景语料(background,bg),可以利用loss(lm_fg_4,lm_bg_4)来衡量phrase的fg语料中的Informative,可以在新词发现时引入该维特征,其中例如foreground是当天的语料,background是过去一周的语料。
例如,参阅图7所示,为本发明实施例中内凝度特征维度中基于语言模型的特征原理示意图,如图7所示,
Figure BDA0002003001090000181
表示基于lm_fg_N模型的得分,
Figure BDA0002003001090000182
表示基于lm_fg_1模型的得分,
Figure BDA0002003001090000183
表示基于lm_bg_N模型的得分,
Figure BDA0002003001090000184
表示基于lm_bg_1模型的得分,可知,可以基于loss(lm_fg_1,lm_fg_N)表征内凝度维度特征信息,基于loss(lm_fg_N,lm_bg_N)表征信息量维度特征信息。
例如,参阅图8所示,为本发明实施例中内凝度特征维度中基于语言模型的短语举例示意图,列举了几个短语分别在lm_fg_1和lm_fg_4的得分,可知,相比于前3个候选phrase,即“早衰信号”、“质量计划”、“儿童身体”,后3个候选phrase,即“炫富摔”、“李茶的姑妈”、“小米MIX3”其语言模型的得分loss更大,则表示phrase的内凝度越大,越有可能是一个高质量phrase。
第三方面:基于短语嵌入向量(embedding)。
具体地:根据候选短语切分后的各嵌入向量,计算候选短语切分后的转义程度,转义程度越大,则内凝度越大。
本发明实施例中,考虑到若候选短语是一个高质量短语,则分别从整体和分词后的角度衡量该短语,其语义将发生很大的转义,例如,候选短语“跳房子”,分词后是“跳”和“房子”,分词后语义发生明显的转义,即“跳房子”的语义不太容易由“跳”的语义加上“房子”的语义推导而来,这说明,转义程度越大,候选短语的语义内凝度越高,越有可能为高质量短语。
本发明实施例中,主要采用embedding方法来表示文本语义信息,根据语料,同时训练获得两种embedding,一种是phrase embedding(pe),即在分词过程中,将phrase切分到一起,按照类似word2vec的方法训练得到phrase embedding,另一种是正常分词,训练得到正常的word embedding(we),则可以采用下面两种方式计算转义程度:
假设候选短语phrase=a/b/c/d。
第一种方式:利用pmi把phrase分成两部分,例如为ab、cd,则转义程度计算公式为:
Comp(abcd)=a*sim(pe_abcd,we_ab)+(1-a)*sim(pe_abcd,we_cd)。
第二种方式:直接用分词后的词向量相加:
Comp(abcd)=sim(pe_abcd,we_a+we_b+we_c+we_d)。
这样,基于上述几方面可以表示候选短语的内凝度维度的特征信息,通过内凝度可以一定程度上判断短语的质量,例如,通常质量分值“深度学习”>“学习分类器”、“朋友圈>“浏览朋友圈”。
d)完整性(Completeness):候选短语相比于父短语和子短语更适合作为短语。
具体地,完整性维度特征包括以下至少一个:
1)候选短语的左右熵和左转移概率。
其中,左右熵通常在自然语言处理(Natural Language Processing,nlp)任务中用于衡量词的搭配多样性,左右搭配越丰富,熵越大,越有可能单独成词。
但是,可能存在一些候选phrase,例如,如图9所示,“州州长”可以左搭配很多词语,例如“伊利诺伊”、“巴伐利亚”、“布尔根兰”、“佛罗里达”等,虽然其左搭配很丰富,但其本身并不是一个完整的phrase。
因此,仅依赖左右熵衡量完整性可能并不准确,本发明实施例中,在左右熵的基础上,引入左转义概率,即计算左领域词到目标词的平均左转移概率,平均左转移概率越小,越有可能是完整的词,其中,这里的左转移概率类似为语言模型中的条件概率,例如“佛罗里达”后面出现“州州长”的概率。
2)候选短语的前缀置信度和后缀置信度。
本发明实施例中,定义高质量短语为语义完备的最小词组,因此,候选phrase是高质量phrase的一个条件是:相比于候选phrase的父短语(super phrase)和子短语(subphrase),候选phrase本身更有可能作为高质量phrase。
因此,本发明实施例中可以基于短语包含关系,来表征完整性维度的特征信息,具体地可以基于出现频次计算面向短语包含关系的置信度。
例如,候选phrase a=“t1t2…tn”,则其前缀b=“t1t2…tn-1”,后缀c=“t2t3…tn”,则前缀置信度为pre_conf=S(a)/S(b),后缀置信度为suf_conf=S(a)/S(c),其中S(a)表示a的频次,S(b)表示b的频次,S(c)表示c的频次,pre_conf表示“t1t2…tn-1”后面出现tn的条件概率,suf_conf表示“t2t3…tn”前面出现t1的条件概率。
令min_conf=min(pre_conf,sub_conf),max_conf=max(pre_conf,sub_conf),则min_conf和max_conf越大,说明候选phrase本身越有可能独立作为高质量phrase。
这样,本发明实施例中采用min_conf和max_conf,即前缀置信度与后缀置信度的最小值,以及前缀置信度与后缀置信度的最大值,来表征完整性维度的特征信息,两者越大,说明候选短语作为高质量短语可能性越大,质量分值越大,综合考虑两者因素,这是因为,可能存在部分实体,例如人名“周/杰伦”,由于“周”右边的搭配比较多,造成pre_conf值比较小,进而min_conf也比较小,但是“周杰伦”本身是一个高质量phrase,这和min_conf值越大越好的假设是相矛盾的,反过来看,虽然“周”后面的搭配较多,但是“杰伦”前面的搭配是较少的,此时suf_conf是比较大的,进而max_conf是比较大的,因此考虑max_conf也可以一定程度弥补min_conf的不足。
3)候选短语在包含该候选短语的父短语中与前后邻接词的紧密度。
本发明实施例中,考虑到若一个候选phrase在其父phrase中和前后邻接词的紧密度都比较高,则这说明该候选phrase极大可能是和父phrase中的前后邻接词作为一个整体出现的,其单独作为phrase的可能性越小,通常可能不单独作为一个phrase。相反地,若一个候选phrase在其父phrase中和前后邻接词的紧密度都比较低,则这说明该候选phrase在父phrase中和前后邻接词并无太大关联,其单独作为phrase的可能性越大。
例如,参阅图10所示,为本发明实施例中完整性维度中邻接词紧密度举例示意图,如图10所示,候选phrase“房地”,其对应的父phrase,例如“房地产”、“房地人才网”、“上海房地产”等,“房地”在其一些父phrase中与前后邻接词的紧密度是比较高的,因此,“房地”单独作为一个phrase的可能性较小。
又例如,候选phrase“王卡助手”,其对应的父phrase,例如有“王卡助手客服”、“腾讯王卡助手”、“王卡助手开通”,通常“王卡助手”在其一些父phrase中与前后邻接词的紧密度可能并不是很高,因此,“王卡助手”单独作为一个phrase的可能性较大。
这样,基于上述参数,可以提取完整性维度的特征信息,可以在一定程度上表征候选短语的质量,例如,通常质量分值“幽门螺旋杆菌”>“幽门螺旋”、“无问西东”>“无问西东电影”。
基于上述实施例,下面采用具体的应用场景进行具体说明,参阅图11所示,为本发明实施例中短语挖掘方法的整体原理框架图,如图11所示,可知本发明实施例中的短语挖掘方法,可以分为以下几部分进行介绍:
第一部分:候选短语集挖掘。具体可以采用以下几种方式:
第一种方式:基于预设词库或知识库,从不同源获取候选短语集。
例如,预设词库或知识库为现有的qrw旧词典、百科实体、输入法词库、垂类资源等。
第二种方式:基于本发明实施例中自动挖掘候选短语集的方法,即auto_phrase方法。
下面采用具体应用场景对auto_phrase方法进行简单说明,参阅图12所示,为本发明实施例中auto_phrase方法原理流程图,具体包括:
1)确定候选短语:
从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语,即高频n-gram短语,作为候选短语,如图12所示,例如候选短语包括“共享单车”、“今日头条”等等。
2)确定正样本集和负样本集:
根据预设实体库,将大于设定频次值的n-gram短语分别划分到正例池和负例池中,即确定正样本集和负样本集。例如,根据图12示意的实体库,“共享单车”在实体库中,则将“共享单车”放到正例池中等。
3)基于正样本集和负样本集,训练得到粗选短语质量模型,并基于粗选短语质量模型,确定各n-gram短语的质量分值。
具体地,可以分别从正例池和负例池中随机采样k个样本组成训练集,并提取简单特征信息来训练粗选短语质量模型,训练完成后,分别预测各n-gram短语的质量分值。例如,预测“共享单车”质量分值为0.81916、“阴阳师”质量分值为0.86364等,质量分值越大,说明候选短语作为高质量短语的可能性越大。
4)基于质量分值和动态规划算法,对原始语料重新进行重新分词,并反馈特征,以使重新训练粗选短语质量模型。
其中,将基于质量分值和动态规划算法进行分词的过程,可以集成到一个模型中,本发明实施例中记为短语分词(phrase segmentation)模型,为一个无监督的分词模型。
具体地,根据动态规划算法和各n-gram短语的质量分值,对原始语料进行重新分词,根据原始语料重新分词后的分词结果,重新统计各n-gram短语的频次,并将重新统计的频次更新到正样本集和负样本集的简单特征信息中,基于更新后的正样本集和负样本集的简单特征信息,重新训练粗选短语质量模型,直至达到预设迭代次数,获得最终训练的粗选短语质量模型。
例如,根据质量分值,在进行分词时,将质量分值较大的短语划分为一个整体,通过动态规划算法,确定较佳的划分结果,如某语料被划分为“共享单车/真/的/能/赢利吗?”,从而可以基于原始语料重新划分的结果,重新统计新的频次,由于该重新统计的新的频次,与分词结果相关,考虑了上下文,因此更加准确,更能真正反映短语的质量。
5)基于各n-gram短语的质量分值,确定候选短语集。
另外,基于上述实施例还可知,最终不仅获得挖掘出的候选短语集,还可以获得候选短语的重新统计的新的频次、基于粗选短语质量模型的质量分值、以及phrasesegmentation无监督分词模型,这些参数还可以用于后续过滤筛选中。
第二部分:基于过滤规则过滤。
参阅图13所示,为本发明实施例中过滤规则示意图,如图13所示,可以设置多种过滤规则:1)停用词:以停用词开头或以停用词结尾的候选短语。2)语法规则:满足预设语法规则的候选短语。3)紧密度:紧密度小于第一阈值的候选短语。4)模板:满足预设冗余信息模板的候选短语。5)搜索结果:在搜索结果中完全命中比例小于第二阈值的候选短语。6)粗选短语质量模型:基于粗选短语质量模型,确定的质量分值小于第三阈值的候选短语。7)低搜索次数:根据预设搜索引擎的搜索日志,确定的搜索次数小于第四阈值的候选短语。8)人名和高频词:确定的热度小于第五阈值的人名的候选短语、以及确定的频次大于第六阈值但信息量小于第七阈值的候选短语。
这样,可以基于上述过滤规则,对候选短语集进行初步过滤,也可以提高后续精选短语质量模型过滤效率,降低复杂性。
需要说明的是,在基于过滤规则过滤时,每个过滤规则都会受到来源数和高qv实体的保护,即候选短语来源数不小于设定数目,或为搜索次数大于设定次数的实体短语,不会在基于过滤规则的过滤阶段被过滤掉。
第三部分:基于精选短语质量模型过滤。
主要是根据设定的多个维度中每个维度的特征信息,基于精选短语质量模型,对过滤规则过滤后的候选短语再次进行更细致的过滤。
其中,设定的多个维度中每个维度的特征信息至少包括:热度维度特征、信息量维度特征、内凝度维度特征和完整性维度特征,这几个维度的特征信息的主要是基于高质量的短语为语义完备的最小词组为原理进行设置的。
第四部分:主题分类。
筛选出满足预设质量条件的短语后,分别确定筛选出的短语的类别,例如,确定“乒乓球”属于体育等,这样,确定类别可以为query分析或doc排序等业务应用场景提供更多先验信息。
第五部分:短语词典。
具体地,根据筛选出的短语,以及筛选出的短语的类别,建立并更新短语词典。
第六部分:新词发现。
本发明实施例中,设置新词发现的独立模块,可以用于发现新的高质量短语,可以设置更新周期,例如,每天更新一次,例如每次发现100左右新词,将发现的新词合并到短语词典中,以实现对短语词典的实时更新。
这样,本发明实施例中通过候选短语集挖掘,基于过滤规则进行粗过滤,并考虑多维特征信息,基于精选短语质量模型再次进行细过滤,通过多次不同程度的过滤,可以减少复杂性,并且充分考虑多维度特征信息,高质量短语筛选更加准确,得到的短语更加合理。
进一步地,可以将获得的短语词典应用到各种自然语言处理的业务场景中,由于该短语词典中短语更加准确和合理,因此可以在一定程度提高自然语言处理的准确性和效果,本发明实施例中提供了几种可能的应用场景:
第一种应用场景:phrase在线识别。
具体地,加载短语词典,并根据短语词典进行匹配,获取短语的识别结果,分为:
1)可以利用Tire树加载短语词典,其中,Tire树核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
2)获取短语的识别结果,具体包括:针对给定的query,确定是否有完全匹配的短语,若有直接返回,否则分别进行前缀匹配和后缀匹配,若query存在多种可能的划分,确定得分最高的划分结果作为query的短语识别结果。
其中,若query存在多种可能的划分,可以提取每种划分结果的特征,根据各特征加权求和,分别为每种划分结果计算一个分数,其中,提取的划分结果的特征,可以包括:有效短语的平均长度,记为Avg_len、有效短语的数量,记为phrase_num、匹配到的短语数量除以划分的总词数,记为Single_word。
参阅图14所示,为本发明实施例中phrase在线识别实例示意图,query为“跳一跳小程序攻略”,基于短语词典,进行完全匹配、前缀匹配或后缀匹配后,可以匹配识别出短语“跳一跳”和“小程序”。
第二种应用场景:其它应用。
phrase可以作为基础数据资源被使用在其它搜索模块中,例如分词、排序截断、紧密度计算、纠错等应用场景。例如,phrase词典可以加到分词工具的自定义词典中,可以防止分词过细或者紧密成分被切分开来。
另外,进一步地,基于本发明实施例中短语挖掘方法生成短语词典后,还提供了对生成的短语词典进行效果评测的方法,具体提供了以下不同方面的效果评测:
第一方面:短语词典评测。
具体地,可以从准确率和召回率进行评测,其中,准确率评测方式可以为从词典中随机选取预设数目个短语,通过人工标注判断,计算准确率;召回率评测方式可以为从搜索日志中确定短语集合作为标准召回集,计算词典命中率,作为召回率。
参阅表1所示,为本发明实施例中短语词典评测结果示例。
表1.
新短语词典 旧短语词典
大小 505,460 330,450
准确率 90.6% 81.3%
召回率 74.8% 20.8%
如表1所示,分别计算新短语词典和旧短语词典的准确率和召回率,其中,新短语词典表示基于本发明实施例中短语挖掘方法确定的短语词典,旧短语词典表示不是基于本发明实施例中短语挖掘方法,即现有技术方法确定的词典,可知,新短语词典的准确率为90.6%、召回率为74.8%,旧短语词典的准确率为81.3%、召回率为20.8%,新短语词典在保证准确率的基础上,大大提高了召回率。
第二方面:query侧评测。
具体地:可以分别基于标准测试集、差异(differences,diff)和胜出率进行评测,其中,标准测试集评测方式可以为:整理确定出一定数目,例如1000条query正确的短语识别结果,评测短语词典在标准测试集上的短语识别效果;diff评测方式可以为:计算新短语词典和旧短语词典对查询重写(query rewrite,qrw)结果的影响;胜出率评测方式可以为:通过人工抽样部分query,对比基于新短语词典和旧短语词典的短语识别结果的优劣。
评测结果说明:
1)标准测试集。
参阅表2所示,为本发明实施例中基于标准测试集评测结果示例。
表2.
正确query比例 phrase准确率 phrase召回率 多识别率 少识别率
新短语词典 67.6% 75.83% 69.68% 8.8% 15.5%
旧短语词典 41.6% 74.07% 23.5% 1.7% 52%
从表2可知,基于新短语词典和旧短语词典在标准测试集上的phrase识别效果,可以分别从正确query比例、phrase准确率、phrase召回率、多识别率和少识别率来表示,可知,无论从query角度还是phrase角度,基于新短语词典的phrase识别效果都有了一定的提升。
2)diff。
本发明实施例中,主要考虑到phrase识别结果的变化会影响qrw中语法树、紧密度、非必留的结果,导致qrw产生diff,例如,本发明实施例中,选取了5w条query的qrw结果,整体qrw的diff是46.2%,分析发现主要是phrase识别结果的变化导致qrw语法树变化,造成qrw的diff。因此,本发明实施例中基于该原理,可以通过diff评测新旧短语词典的效果。
3)胜出率。
本发明实施例中,分别选取一些热门和随机选取的query,对比基于新短语词典和旧短语词典对这两部分query的phrase识别结果。
通过分析总结,新短语词典针对热门query的短语识别结果的胜出率是69.5%;新短语词典针对随机选取的query的短语识别结果的胜出率是59.3%,可知,新短语词典针对热门query或随机选取的query,相较于旧短语词典都有一定的提升。
例如,参阅图15所示,为本发明实施例中基于新旧短语词典的短语识别对比结果示意图,如图15所示,针对选取的热门query,分别基于新短语词典和旧短语词典进行短语识别,其中,“热门问题”一栏表示选取出的热门query,“分词结果”一栏表示query对应的分词结果,“新短语词典”一栏表示基于新短语词典识别出的短语,“旧短语词典”一栏表示基于旧短语词典识别出的短语,例如,query“微信运动”,其对应的分词结果为:{“微信”“运动”},基于新短语词典可以识别出该query中的短语“微信”和“运动”,但是旧短语词典则没有识别出短语,可知,新短语词典的phrase识别效果更好。
第三方面:排序(rank)侧评测。
具体地:可以分别基于diff和胜出率进行评测,其中,基于diff的评测方式可以为:新短语词典和旧短语词典对排序的影响,主要通过确定对qrw的影响来说明对排序的影响;基于胜出率的评测方式可以为:通过人工抽样部分query,对比基于新短语词典和旧短语词典的排序的优劣。
评测结果说明:
1)diff:通常phrase的变化会影响索引召回、线上排序等策略,因此,通过qrw的diff来描述对排序的影响。
例如,选取1w条存在qrw diff的query进行评测,得知新短语词典在diff评测方面有改善。
2)胜出率:随机选取部分query,对比基于新短语词典和旧短语词典对选取选取出的部分query的phrase识别结果。通过分析得知,新短语词典的胜出率是50.8%,胜出率有一定的提升。
基于上述实施例,参阅图16所示,本发明实施例中,短语挖掘装置具体包括:
候选短语获取模块1600,用于基于预设策略,获取候选短语集;
规则过滤模块1610,用于根据预设过滤规则,对候选短语集进行过滤;
特征获取模块1620,用于针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;
质量分值获取模块1630,用于基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;
筛选模块1640,用于根据各候选短语的质量分值,筛选出满足预设质量条件的短语。
可选的,基于预设策略,获取候选短语集时,候选短语获取模块1600具体用于:
从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语;
基于粗选短语质量模型,分别确定筛选出的n-gram短语的质量分值,并基于各n-gram短语的质量分值,确定候选短语集;其中所述粗选短语质量模型用于根据n-gram短语的简单特性信息确定质量分值。
可选的,针对所述粗选短语质量模型的训练方式,还包括第一训练模块1650,用于:
获取正样本集和负样本集;
分别提取所述正样本集和负样本集的简单特征信息,并根据正样本集和负样本集的简单特征信息,训练得到粗选短语质量模型;
基于所述粗选短语质量模型,确定各n-gram短语的质量分值,并根据动态规划算法和各n-gram短语的质量分值,对原始语料进行重新分词;
根据原始语料重新分词后的分词结果,重新统计各n-gram短语的频次,并将重新统计的频次更新到正样本集和负样本集的简单特征信息中,基于更新后的正样本集和负样本集的简单特征信息,重新训练所述粗选短语质量模型,直至达到预设迭代次数,获得最终训练的粗选短语质量模型。
可选的,获取正样本集和负样本集时,第一训练模块1650具体用于:
从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语;
分别针对筛选出的n-gram短语,将存在于预设实体库中的n-gram短语,作为正样本集,并将未存在于预设实体库中的n-gram短语,作为负样本集。
可选的,进一步包括,第二训练模块1660,用于:
确定训练正样本集和训练负样本集;
分别提取训练正样本集和训练负样本集中各样本设定的多个维度中每个维度的特征信息;
根据训练正样本集和负样本集的各样本设定的多个维度中每个维度的特征信息,构建精选短语质量模型。
可选的,确定训练正样本集和训练负样本集时,第二训练模块1660具体用于:
获取搜索次数大于设定次数并在点击文本中紧邻的实体短语,并作为训练正样本集,以及根据训练正样本集和短语包含关系,将包含训练正样本集中短语的父短语或被包含在训练正样本集中短语的子短语,作为训练负样本集;
根据协同训练算法,获取训练正样本和训练负样本,并将获取的训练正样本和训练负样本,分别更新到所述训练正样本集和所述训练负样本集。
可选的,所述设定的多个维度中每个维度的特征信息至少包括:热度维度特征、信息量维度特征、内凝度维度特征和完整性维度特征。
可选的,进一步包括:
类别确定模块,用于分别确定筛选出的短语的类别。
基于上述实施例,参阅图17所示,本发明实施例中,一种电子设备的应用架构示意图。
本发明实施例提供了一种电子设备1700,该电子设备1700可以包括处理器1710(Center Processing Unit,CPU)、存储器1720、输入设备1730和输出设备1740等,输入设备1730可以包括键盘、鼠标、触摸屏等,输出设备1740可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器1720可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器1710提供存储器1720中存储的程序指令和数据。在本发明实施例中,存储器1720可以用于存储本发明实施例中短语挖掘方法的程序。
处理器1710通过调用存储器1720存储的程序指令,处理器1710用于按照获得的程序指令执行上述任一种短语挖掘方法。
电子设备1700可以通过网络1750与用户终端1760通信连接,其中,网络1750可以为一个或多个,并且,电子设备1700还可以通过网络1750与其它关联服务器1770通信连接,例如可以从其它关联服务器1770中获取短语实体库或知识库等。
基于上述实施例,本发明实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的短语挖掘方法。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台控制设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种短语挖掘方法,其特征在于,包括:
基于预设策略,获取候选短语集;
根据预设过滤规则,对候选短语集进行过滤;
针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;
基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;
根据各候选短语的质量分值,筛选出满足预设质量条件的短语,其中,所述满足预设质量条件的短语为质量分值大于设定值的候选短语;
分别获取所述满足预设质量条件的短语在搜索引擎中对应的标签,并将对应的标签映射到预定义的类别;根据所述满足预设质量条件的短语在搜索引擎的搜索结果中对应的统一资源定位符所属的类别,修正标签映射的类别。
2.如权利要求1所述的方法,其特征在于,基于预设策略,获取候选短语集,具体包括:
从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语;
基于粗选短语质量模型,分别确定筛选出的n-gram短语的质量分值,并基于各n-gram短语的质量分值,确定候选短语集;其中所述粗选短语质量模型用于根据n-gram短语的简单特性信息确定质量分值。
3.如权利要求2所述的方法,其特征在于,所述粗选短语质量模型的训练方式为:
获取正样本集和负样本集;
分别提取所述正样本集和负样本集的简单特征信息,并根据正样本集和负样本集的简单特征信息,训练得到粗选短语质量模型;
基于所述粗选短语质量模型,确定各n-gram短语的质量分值,并根据动态规划算法和各n-gram短语的质量分值,对原始语料进行重新分词;
根据原始语料重新分词后的分词结果,重新统计各n-gram短语的频次,并将重新统计的频次更新到正样本集和负样本集的简单特征信息中,基于更新后的正样本集和负样本集的简单特征信息,重新训练所述粗选短语质量模型,直至达到预设迭代次数,获得最终训练的粗选短语质量模型。
4.如权利要求3所述的方法,其特征在于,获取正样本集和负样本集,具体包括:
从原始语料的分词结果中筛选出频次大于设定频次值的n-gram短语;
分别针对筛选出的n-gram短语,将存在于预设实体库中的n-gram短语,作为正样本集,并将未存在于预设实体库中的n-gram短语,作为负样本集。
5.如权利要求1所述的方法,其特征在于,进一步包括:
确定训练正样本集和训练负样本集;
分别提取训练正样本集和训练负样本集中各样本设定的多个维度中每个维度的特征信息;
根据训练正样本集和负样本集的各样本设定的多个维度中每个维度的特征信息,构建精选短语质量模型。
6.如权利要求5所述的方法,其特征在于,确定训练正样本集和训练负样本集,具体包括:
获取搜索次数大于设定次数并在点击文本中紧邻的实体短语,并作为训练正样本集,以及根据训练正样本集和短语包含关系,将包含训练正样本集中短语的父短语或被包含在训练正样本集中短语的子短语,作为训练负样本集;
根据协同训练算法,获取训练正样本和训练负样本,并将获取的训练正样本和训练负样本,分别更新到所述训练正样本集和所述训练负样本集。
7.如权利要求1或5所述的方法,其特征在于,所述设定的多个维度中每个维度的特征信息至少包括:热度维度特征、信息量维度特征、内凝度维度特征和完整性维度特征。
8.一种短语挖掘装置,其特征在于,包括:
候选短语获取模块,用于基于预设策略,获取候选短语集;
规则过滤模块,用于根据预设过滤规则,对候选短语集进行过滤;
特征获取模块,用于针对过滤后的候选短语集中每一个候选短语,获得设定的多个维度中每个维度的特征信息;
质量分值获取模块,用于基于精选短语质量模型分别获得以各候选短语每个维度的特征信息为输入参数确定的质量分值,所述精选短语质量模型用于根据候选短语各维度的特征信息确定候选短语的质量分值;
筛选模块,用于根据各候选短语的质量分值,筛选出满足预设质量条件的短语,其中,所述满足预设质量条件的短语为质量分值大于设定值的候选短语;
类别确定模块,用于分别获取所述满足预设质量条件的短语在搜索引擎中对应的标签,并将对应的标签映射到预定义的类别;根据所述满足预设质量条件的短语在搜索引擎的搜索结果中对应的统一资源定位符所属的类别,修正标签映射的类别。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
CN201910219059.2A 2019-03-21 2019-03-21 一种短语挖掘方法及装置 Active CN110008309B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910219059.2A CN110008309B (zh) 2019-03-21 2019-03-21 一种短语挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910219059.2A CN110008309B (zh) 2019-03-21 2019-03-21 一种短语挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN110008309A CN110008309A (zh) 2019-07-12
CN110008309B true CN110008309B (zh) 2021-03-30

Family

ID=67167724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910219059.2A Active CN110008309B (zh) 2019-03-21 2019-03-21 一种短语挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN110008309B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579869B (zh) * 2019-09-29 2022-02-01 北京星选科技有限公司 对象提取方法、装置、电子设备及存储介质
CN111027316A (zh) * 2019-11-18 2020-04-17 大连云知惠科技有限公司 文本处理方法、装置、电子设备及计算机可读存储介质
CN110991173B (zh) * 2019-11-29 2023-09-29 支付宝(杭州)信息技术有限公司 一种分词方法及系统
CN113111656B (zh) * 2020-01-13 2023-10-31 腾讯科技(深圳)有限公司 实体识别方法、装置、计算机可读存储介质和计算机设备
CN111522957B (zh) * 2020-05-09 2023-05-12 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN111860882B (zh) * 2020-06-17 2022-09-30 国网江苏省电力有限公司 一种电网调度故障处理知识图谱的构建方法及装置
CN112463953B (zh) * 2020-11-30 2022-06-17 杭州孚嘉科技有限公司 一种基于税务咨询问题的热句排序方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN107357777A (zh) * 2017-06-16 2017-11-17 北京神州泰岳软件股份有限公司 提取标签信息的方法和装置
CN107463554A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN108241613A (zh) * 2018-01-03 2018-07-03 新华智云科技有限公司 一种提取关键词的方法及设备
US10152535B1 (en) * 2007-03-30 2018-12-11 Google Llc Query phrasification

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7401072B2 (en) * 2003-06-10 2008-07-15 Google Inc. Named URL entry
CN101963966A (zh) * 2009-07-24 2011-02-02 李占胜 一种为搜索结果添加标签的搜索结果分类方法
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法
CN103377230A (zh) * 2012-04-15 2013-10-30 何劲 常用网址和常用网址类别的汉语名称输入方法和系统
CN103020239B (zh) * 2012-12-17 2016-12-28 北京奇虎科技有限公司 网页搜索方法和装置
CN103488741A (zh) * 2013-09-22 2014-01-01 华东师范大学 一种基于url的中文多语义名词的在线语义挖掘系统
US9646263B2 (en) * 2014-12-31 2017-05-09 Facebook, Inc. Identifying expanding hashtags in a message
CN105843965B (zh) * 2016-04-20 2019-06-04 广东精点数据科技股份有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN107943792B (zh) * 2017-11-24 2021-11-23 腾讯科技(深圳)有限公司 一种语句分析方法、装置及终端设备、存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10152535B1 (en) * 2007-03-30 2018-12-11 Google Llc Query phrasification
CN101196904A (zh) * 2007-11-09 2008-06-11 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN107463554A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107463548A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN106294320A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种面向学术论文的术语抽取方法及系统
CN107357777A (zh) * 2017-06-16 2017-11-17 北京神州泰岳软件股份有限公司 提取标签信息的方法和装置
CN108241613A (zh) * 2018-01-03 2018-07-03 新华智云科技有限公司 一种提取关键词的方法及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TF-IDF与规则结合的中文关键词自动抽取研究;牛萍;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160315(第3期);全文 *
中文文本主题关键短语提取算法研究;杨玥;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第2期);全文 *
基于中文短语串的细粒度主题信息抽取及文本聚类算法;林伟佳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151231(第12期);全文 *
大规模词序列中基于频繁词集的特征短语抽取模型;余琴琴等;《小型微型计算机系统》;20180531;第39卷(第5期);全文 *

Also Published As

Publication number Publication date
CN110008309A (zh) 2019-07-12

Similar Documents

Publication Publication Date Title
CN110008309B (zh) 一种短语挖掘方法及装置
CN107644010B (zh) 一种文本相似度计算方法及装置
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
US11379668B2 (en) Topic models with sentiment priors based on distributed representations
US9594747B2 (en) Generation of a semantic model from textual listings
CN100517301C (zh) 改进的拼写检查系统和方法
JP6335898B2 (ja) 製品認識に基づく情報分類
US9361362B1 (en) Synonym generation using online decompounding and transitivity
US20150100308A1 (en) Automated Formation of Specialized Dictionaries
CN113268995A (zh) 中文学术关键词抽取方法、装置和存储介质
JP2005302042A (ja) マルチセンスクエリについての関連語提案
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
US20210064657A1 (en) Identifying similar sentences for machine learning
US11556711B2 (en) Analyzing documents using machine learning
CN109271524B (zh) 知识库问答系统中的实体链接方法
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110019776B (zh) 文章分类方法及装置、存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
US20210064700A1 (en) Removing outliers from training data for machine learning
Ashna et al. Lexicon based sentiment analysis system for malayalam language
CN107239455B (zh) 核心词识别方法及装置
CN111259156A (zh) 一种面向时间序列的热点聚类方法
Carvalho et al. Improving legal information retrieval by distributional composition with term order probabilities.
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant