CN103838744B - 一种查询词需求分析的方法及装置 - Google Patents

一种查询词需求分析的方法及装置 Download PDF

Info

Publication number
CN103838744B
CN103838744B CN201210477861.XA CN201210477861A CN103838744B CN 103838744 B CN103838744 B CN 103838744B CN 201210477861 A CN201210477861 A CN 201210477861A CN 103838744 B CN103838744 B CN 103838744B
Authority
CN
China
Prior art keywords
query
classification
pattern match
user
machine learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210477861.XA
Other languages
English (en)
Other versions
CN103838744A (zh
Inventor
阮星华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210477861.XA priority Critical patent/CN103838744B/zh
Publication of CN103838744A publication Critical patent/CN103838744A/zh
Application granted granted Critical
Publication of CN103838744B publication Critical patent/CN103838744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种查询词需求分析的方法及装置,其中,方法包括:模型建立过程:根据由各类别的query模式构成的各类别模式词典,分别预先建立与各个类别对应的模式匹配树;将依据所述模式匹配树得到的各类别query作为样本来训练机器学习识别模型;需求识别过程:根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。本发明能够结合模式匹配树以及机器学习识别模型来对query进行分类,同时模式匹配树以及机器学习识别模型二者之间能够互相反馈,不断完善,提高对query分类的准确度。

Description

一种查询词需求分析的方法及装置
【技术领域】
本发明涉及信息检索技术领域,尤其涉及一种查询词需求分析的方法及装置。
【背景技术】
衡量一个搜索引擎好坏的重要标准之一就是其搜索结果与用户需求的切合程度,即搜索结果的相关性。为了能够改善搜索结果的相关性,需要能够根据用户输入的query(查询词)准确分析出用户的查询需求。现有的基于规则描述的需求识别算法能够对query的进行分类,得到query的所属类别,其分类结果一般较为准确,但该方法依赖于规则描述词典的规模大小,无法保证能对每一个query都准确分类,因此会影响搜索结果的召回率。
【发明内容】
有鉴于此,本发明提供了一种查询词需求分析的方法及装置,能够准确分析用户查询需求。
具体技术方案如下:
一种查询词需求分析的方法,该方法包括:
模型建立过程:根据由各类别的query模式构成的各类别模式词典,分别预先建立与各个类别对应的模式匹配树;将依据所述模式匹配树得到的各类别query作为样本来训练机器学习识别模型;
需求识别过程:根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。
根据本发明一优选实施例,所述需求识别过程具体包括:
利用模式匹配树对所述用户输入的query进行匹配,如果存在匹配的路径,则确定存在匹配的路径的模式匹配树对应的类别为所述用户输入的query所属的类别;如果不存在匹配的路径,则利用所述机器学习识别模型对所述用户输入的query进行分类,得到所述用户输入的query所属的类别。
根据本发明一优选实施例,在建立某类别对应的模式匹配树时,具体包括:
初始化所述模式匹配树的根节点;
依据所述某类别的类别模式词典中各query模式的词语顺序,分别建立根节点的各级子节点,使得从根节点的第一级子节点开始至叶节点的各路径分别构成所述各query模式。
根据本发明一优选实施例,所述训练机器学习识别模型具体包括:
利用所述模型匹配树对预先收集的query进行分类,得到各类别的query样本;
对各类别的query样本分别进行分词和归一化处理,统计得到的各词语针对各类别的TF-IDF。
根据本发明一优选实施例,利用所述机器学习识别模型对所述用户输入的query进行分类,具体包括:
将所述用户输入的query进行分词和归一化处理后,计算所述用户输入的query对于每个类别的权重,将最高权重值对应的类别确定为所述用户输入的query所属的类别,其中,所述用户输入的query对于某个类别的权重值为分词和归一化处理后得到的各词语中属于所述某类别的词语的TF-IDF之和。
根据本发明一优选实施例,在训练机器学习识别模型时还结合人工标注的各类别query样本。
根据本发明一优选实施例,该方法还进一步包括:
利用所述机器学习识别模型对用户输入的query的分类结果扩充对应的类别模式词典。
一种查询词需求分析的装置,该装置包括:
模式匹配树建立单元,用于根据由各类别的query模式构成的各类别模式词典,分别预先建立与各个类别对应的模式匹配树;
机器学习训练单元,用于将依据所述模式匹配树得到的各类别query作为样本来训练机器学习识别模型;
需求识别单元,用于根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。
根据本发明一优选实施例,所述需求识别单元,具体包括:
模式匹配树分类子单元,用于利用模式匹配树对所述用户输入的query进行匹配,如果存在匹配的路径,则确定存在匹配的路径的模式匹配树对应的类别为所述用户输入的query所属的类别;如果不存在匹配的路径,则触发所述机器学习识别子单元;
机器学习识别子单元,用于利用所述机器学习识别模型对所述用户输入的query进行分类,得到所述用户输入的query所属的类别。
根据本发明一优选实施例,所述模式匹配树建立单元,具体执行:
初始化所述模式匹配树的根节点;
依据所述某类别的类别模式词典中各query模式的词语顺序,分别建立根节点的各级子节点,使得从根节点的第一级子节点开始至叶节点的各路径分别构成所述各query模式。
根据本发明一优选实施例,所述机器学习训练单元具体执行:
利用所述模型匹配树对预先收集的query进行分类的分类结果,得到各类别的query样本;
对各类别的query样本分别进行分词和归一化处理,统计得到的各词语针对各类别的TF-IDF。
根据本发明一优选实施例,所述需求识别单元在在利用所述机器学习识别模型对query进行分类时,具体执行:
将所述用户输入的query进行分词和归一化处理后,计算所述用户输入的query对于每个类别的权重,将最高权重值对应的类别确定为所述用户输入的query所属的类别,其中,所述用户输入的query对于某个类别的权重值为分词和归一化处理后得到的各词语中属于所述某类别的词语的TF-IDF之和。
根据本发明一优选实施例,所述机器学习训练单元训练所述机器学习识别模型时,还结合人工标注的各类别query样本。
根据本发明一优选实施例,该装置还进一步包括:
反馈单元,用于利用所述需求识别单元根据机器学习识别模型对用户输入的query的分类结果扩充对应的类别模式词典。
由以上技术方案可以看出,本发明根据模式词典构造了模式匹配树,并用依据模式匹配树得到的各类别query作为样本训练机器学习识别模型,使得根据模式匹配树和根据机器学习识别模型均能对query进行分类,准确获取query的查询需求。同时,机器学习识别模型的分类结果能够进一步补充模式匹配树,而模式匹配树的分类结果也能进一步作为样本训练机器学习识别模型,二者能够相互反馈,提高对query分类的准确性。
【附图说明】
图1为本发明实施例一所提供的查询词需求分析的方法流程图;
图2为本发明实施例一所提供的地图类模式匹配树示例图;
图3为本发明实施例一所提供的机器学习识别模型的训练过程和识别过程方法示意图;
图4为本发明实施例二所提供的查询词需求分析的装置示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明综合了模式匹配识别的方法和机器学习识别的模型来对用户输入的query进行需求分析,识别query所属类别(例如地图类、天气类、视频类),其中,模式匹配识别得到的分类结果可以用于机器学习的训练样本,而机器学习识别的分类结果也可以对模式匹配识别方法进行补充,两种方法相互反馈补充,能够准确地分析出query的所属类别,从而有效改善搜索结果的准确率和召回率。
实施例一
图1为本发明实施例一所提供的查询词需求分析的方法流程图,如图1所示,该方法包括:
S101、根据预先建立的各个类别模式词典,分别建立与各个类别对应的模式匹配树。
为了能够通过模式匹配来对query进行分类以识别其需求,可以通过预先建立的类别模式词典来建立与各个类别对应的模式匹配树。
类别模式词典可以根据不同类别来建立,每一类别的类别模式词典保存有该类别的query的模式,例如,地图类的类别模式词典中保存有该类query的模式为:[地名]怎么走、[地名]到[地名]怎么走、[地名]在哪里、到[地名]怎么坐车,天气类的类别模式词典中保存有该类query的样式为:[地名][日期]天气、[日期][地名]的天气、[地名]天气怎么样,其中,[地名]和[日期]为类别词,分别代表各自所属类别的词,例如,“北京大学”、“王府井”属于[地名]类的词,“今天”、“下周”属于[日期]类的词,将query中属于固定类别的词以属性槽的方式进行统一的过程可以称作为归一化,归一化可以基于预先建立的各个类别词典来实现,例如,预先建立[地名]类词典,之后将query中属于该词典中的分词归一为[地名],对query进行归一化处理能够便于在后续匹配识别过程中更准确的分析query的查询需求。
在获得了类别模式词典后,可以依据类别模式词典树来构造模式匹配树,每一个类别构造与其对应的一棵模式匹配树,模式匹配树可以但不限于为trie树的形式,具体构造方法可以为:建立初始节点(即模式匹配树的根节点),读入该类别的类别模式词典中各query模式的第一个词作为第二层节点,再依据各query模式分别建立第二层节点的子节点以及后续各级子节点,从第二层节点开始至叶节点的各路径分别对应该类别的类别模式词典中各query模式。图2为对应上述地图类类别模式词典示例所建立的模式匹配树示例图,在建立模式匹配树的过程中,也可以对各个模式分词后,将“怎么”、“哪里”和“坐车”这类词义固定的词划分在一个节点中,本发明对此不做限制。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
通过上述方式构造的模式匹配树的实质是保存在系统中的数据结构,在依据模式匹配树对query进行匹配识别时,算法复杂度仅与query的长度有关,因此,在真正运行时,模式匹配树有很高的匹配识别速率。
S102、将依据所述模式匹配树得到的各类别query作为样本训练机器学习识别模型。
为了让机器学习识别模型能够准确对query进行分类,需要预先对机器学习识别模型进行训练,可以使用模式匹配树对预先获取的query集的分类结果来作为样本进行训练。
用模式匹配树对query进行匹配识别的方法具体可以为:对query进行分词以及归一化处理,从各个模式匹配树的第二层节点开始,依次对query中的词进行匹配,若query中的每个词均能和模式匹配树中某路径的各节点匹配,则认为该query属于该模式匹配树所对应的类别。例如,有两个query分别为“天安门怎么走”和“北京天气怎么样”,用图2中所示例的地图类模式匹配树对该两个query进行匹配分类时,第一个query中的每个词均能和模式匹配树中的对应节点匹配(其中“天安门”与“[地名]”匹配),所以判定“天安门怎么走”属于地图类,而第二个query中只有“北京”能与第二层节点中的“[地名]”匹配,之后“天”无法与第三层的节点匹配,所以判定“北京天气怎么样”不属于地图类。可以理解的是,上述举例仅出于示例的目的,本发明的实施例不限于此。
通过上述方法,用每一个类别对应的模式匹配树对预先获取的query进行匹配分类,将得到的分类结果作为样本用于机器学习识别模型的训练。机器学习的识别模型可以基于改进的TF-IDF算法,如图3所示,具体训练过程以及识别过程可以通过下述步骤S201-S203来实现:
S201、对所有query样本进行分词,统计每一类别样本中每个分词在该类别所有分词中的词频TF。
用根据模式匹配树对预先获取的query进行匹配分类后得到的分类结果作为训练样本,对所有样本query进行分词以及归一化处理。统计每一类别样本中分词的总量T,以及每个分词出现的次数S,以S除以T作为该分词的词频TF。例如,地图类所有query样本共有10000个分词,其中,[地名]出现了2000次,“怎么”出现了1000次,则在地图类中,[地名]的TF为0.2,“怎么”的TF为0.1。
S202、将每个类别中词频TF最高的前N个分词作为重点词,根据每个类别中的重点词所出现在的类别数量,得到重点词的IDF。
根据每个分词的词频TF,对每个类别样本中的所有分词进行排序,在每个类别中选出词频TF最高的N个分词作为重点词,N为预设的正整数,若一个重点词共在M个类别作为重点词中出现过,那么该重点词的IDF为1/M。例如,[地名]在地图类和天气类这两个类别的重点词中出现过,那么[地名]的IDF为1/2=0.5。N的值可以根据样本规模以及实际需求来设定,同时,对于不同的类别,N的值也可以不同。
上述步骤S201-S202为基于改进TF-IDF算法的机器学习识别模型的训练过程,在经过大量被正确分类的样本的训练后,机器学习识别模型能够准确对query进行分类,识别过程具体可以用下述步骤S203中描述的方法。
S203、将query进行分词后,计算query对于每个类别的权重,将query划为所得权重值最高的类别,其中,query对于某个类别的权重值为query中属于该类别重点词的每个分词TF与IDF乘积相加的值。
将query进行分词并将属于固定类别的词归一化后,分别查看query的分词中属于各个别类重点词的分词,将query中属于某一类别的重点词的各个分词TF与IDF的乘积相加,作为该query对于该类的权重值。
为了进一步说明上述步骤S201-S203中机器学习识别模型的训练过程和识别过程,下面结合一个示例进行描述。
例如,有三个类别的训练样本,分别为地图类、天气类和计算类,每个类别的样本query分别为:
地图类样本query:北京大学怎么走、圆明园怎么走、故宫在哪里;
天气类样本query:福州今天天气怎么样、北京天气、上海明天天气;
计算类样本query:1美元等于多少人民币、2的100次方是多少、20摄氏度等于多少华氏度。
对query进行分词以及归一化处理,将“北京大学”、“圆明园”、“故宫”、“福州”、“北京”和“上海”归一化为[地名],将“今天”和“明天”归一化为[日期],将“1”、“2”、“100”和“20”归一化为[数字],将“美元”、“人民币”、“摄氏度”和“华氏度”归一化为[单位]。经过上述处理后的样本query为:
地图类query:[地名]+怎么+走,[地名]+怎么+走,地名+在+哪里;
天气类query:[地名]+[日期]+天气+怎么+样,[地名]+天气,[地名]+[日期]+天气;
计算类query:[数字]+[单位]+等于+多少+[单位],[数字]+的+[数字]+次方+是+多少,[数字]+[单位]+等于+多少+[单位]。
在地图类中,三个query共有9个分词,其中,“怎么”出现了两次,则“怎么”在地图类的词频TF为2/9=0.22,以此类推,计算各个类别中的每个分词的TF,得到:
地图类:[地名]TF=0.33,怎么TF=0.22,走TF=0.22,在TF=0.11,哪里TF=0.11
天气类:[地名]TF=0.3,天气TF=0.3,[日期]TF=0.2,怎么TF=0.1,样TF=0.1
计算类:[数字]TF=0.25,[单位]TF=0.25,多少TF=0.19,等于TF=0.125,的TF=0.06,次方TF=0.06。
选取每个类别中TF最高的前三个词作为重点词,则地图类的重点词为:[地名]、怎么、走;天气类的重点词为:[地名]、[日期]、天气;计算类的重点词为:[数字]、[单位]、多少。其中,[地名]在两个类别的重点词中出现过,则[地名]的IDF为1/2=0.5,以此类推,得到上述各个重点词的IDF分别为:
[地名]IDF=0.5,怎么IDF=1,走IDF=1,天气IDF=1,日期IDF=1,[数字]IDF=1,[单位]IDF=1,多少IDF=1。
上述为训练过程,通过训练可以得到每个词对于各个类别的词频TF,以及重点词的IDF,之后可以利用训练结果对query进行识别分类。例如,有两个用户输入的query分别为,query1:“到天坛怎么走”,query2:“下周天津天气如何”,进行分词和归一化处理后可以将这两个query看作为:到+[地名]+怎么+走,[日期]+[地名]+天气+如何。分别计算这两个query对于上述三个类别的权重值,其中,对于地图类,query1中的“[地名]”、“怎么”、“走”属于地图类的重点词,query2中的“[地名]”属于地图类的重点词,将该些重点词的TF与IDF的乘积的和作为query对于地图类的权重值,如,query1对于地图类的权重值为:0.33×0.5+0.22×1+0.22×1=0.605,query2对于地图类的权重值为:0.3×0.5=0.15,以此类推,可以得到query1和query2分别对于天气类和计算类的权重值:
对于天气类的权重值:query1=0.3×0.5([地名])=0.15,query2=0.2×1([日期])+0.3×0.5([地名])+0.3×0.5(天气)=0.5
对于计算类的权重值:query1=0,query2=0
可见,query1对于地图类的权重值最高,query2对于天气类的权重值最高,所以,将query1识别为地图类,将query2识别为天气类。上述为结合示例对步骤S201-S203所描述的机器学习识别模型的训练过程和识别过程进行的描述。
需要说明的是,除了以模式匹配树的分类结果作为机器学习识别模型的训练样本外,还可以通过别的方式挖掘标注有需求类别的query作为机器学习识别模型的训练样本,例如,可以通过人工对模式匹配树无法识别分类的query进行类别标注后作为训练样本,作为对模式匹配树分类结果的补充,还可以在线上引导用户对其输入的query进行类别标注,将标注结果作为训练样本。通过多种方式获取全面的训练样本,能够使得训练后的机器学习识别模型更为准确地对query进行分类。
通过上述步骤S101-S102所述的方法,可以构造模式匹配树以及完成对机器学习识别模型的训练,同时确定了模式匹配树以及机器学习识别模型对query的分类方法,之后,可以基于模式匹配树以及机器学习识别模型来对用户输入的query进行分类。
S103、根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。
对用户输入的query进行分类时,可以结合所构造的模式匹配树和经过训练的机器学习识别模型来完成。可以先根据模式匹配树对用户输入的query进行匹配分类,若用户输入的query能够与某一类别模式匹配树中的某一路径匹配,则认为用户输入的query属于该类别;若用户输入的query无法与任一类别模式匹配树中的任一路径匹配,则利用机器学习识别模型对该query进行识别分类。
由于模式匹配树是依据固定模式来对query进行匹配分类的,因此,模式匹配树的分类结果都十分准确,然而,模式匹配树依赖于类别模式词典的规模大小,当用户输入的query不能与模式匹配树中任何一个模式匹配时,模式匹配树就无法对这样的query进行匹配分类,因此,需要机器学习识别模型来识别这样的query。更进一步地,可以根据机器学习识别模型的识别分类结果来对类别模式词典进行补充,扩展模式匹配树的匹配识别范围,同时,也可以进一步地将模式匹配树新的匹配识别结果作为样本来训练机器学习识别模型,使得模式匹配树与机器学习识别模型两者之间相互反馈,对各自的分类方法进行完善。
实施例二
图4为本发明实施例二提供的查询词需求分析的装置示意图,如图4所示,该装置包括:模式匹配树建立单元10、机器学习训练单元20、需求识别单元30,还可以包括:反馈单元40,其中,需求识别单元进一步包括:模式匹配树分类子单元31和机器学习识别子单元32。
模式匹配树建立单元10,用于根据预先建立的各个类别模式词典,分别建立与各个类别对应的模式匹配树。
为了能够通过模式匹配来对query进行分类以识别其需求,可以通过预先建立的类别模式词典来建立与各个类别对应的模式匹配树。
类别模式词典可以根据不同类别来建立,每一类别的类别模式词典保存有该类别的query的模式,例如,地图类的类别模式词典中保存有该类query的模式为:[地名]怎么走、[地名]到[地名]怎么走、[地名]在哪里、到[地名]怎么坐车,天气类的类别模式词典中保存有该类query的样式为:[地名][日期]天气、[日期][地名]的天气、[地名]天气怎么样,其中,[地名]和[日期]为类别词,分别代表各自所属类别的词,例如,“北京大学”、“王府井”属于[地名]类的词,“今天”、“下周”属于[日期]类的词,将query中属于固定类别的词以属性槽的方式进行统一的过程可以称作为归一化,归一化可以基于预先建立的各个类别词典来实现,例如,预先建立[地名]类词典,之后将query中属于该词典中的分词归一为[地名],对query进行归一化处理能够便于在后续匹配识别过程中更准确的分析query的查询需求。
在获得了类别模式词典后,模式匹配树构造单元10可以依据类别模式词典树来构造模式匹配树,每一个类别构造与其对应的一棵模式匹配树,模式匹配树可以但不限于为trie树的形式,具体构造方法可以为:建立初始节点(即模式匹配树的根节点),读入类别该类别的模式词典中各query模式的第一个词作为第二层节点,再依据各query模式分别建立第二层节点的子节点以及后续各级子节点,从第二层节点开始至叶节点的各路径分别对应该类别的类别模式词典中各query模式。在建立模式匹配树的过程中,也可以对各个模式分词后,将“怎么”、“哪里”和“坐车”这类词义固定的词划分在一个节点中,本发明对此不做限制。
通过模式匹配树建立单元10建立的模式匹配树的实质是保存在系统中的数据结构,在依据模式匹配树对query进行匹配识别时,算法复杂度仅与query的长度有关,因此,在真正运行时,模式匹配树有很高的匹配识别速率。
机器学习训练单元20,用于将依据所述模式匹配树得到的各类别query作为样本来训练机器学习识别模型。
为了让机器学习识别模型能够准确对query进行分类,需要预先通过机器学习训练单元20对机器学习识别模型进行训练,可以使用需求识别单元30中的模式匹配树分类子单元31根据模式匹配树对预先获取的query集的分类结果来作为样本进行训练。
机器学习识别模型可以基于改进的TF-IDF算法,机器学习训练单元20可以执行下述操作S301-S302来完成对机器学习识别模型的训练:
S301、对所有query样本进行分词,统计每一类别样本中每个分词在该类别所有分词中的词频TF。
用根据模式匹配树对预先获取的query进行匹配分类后得到的分类结果作为训练样本,对所有样本query进行分词以及归一化处理。统计每一类别样本中分词的总量T,以及每个分词出现的次数S,以S除以T作为该分词的词频TF。例如,地图类所有query样本共有10000个分词,其中,[地名]出现了2000次,“怎么”出现了1000次,则在地图类中,[地名]的TF为0.2,“怎么”的TF为0.1。
S302、将每个类别中词频TF最高的前N个分词作为重点词,根据每个类别中的重点词所出现在的类别数量,得到该重点词的IDF。
根据每个分词的词频TF,对每个类别样本中的所有分词进行排序,在每个类别中选出词频TF最高的N个分词作为重点词,N为预设的正整数,若一个重点词共在M个类别作为重点词中出现过,那么该重点词的IDF为1/M。例如,[地名]在地图类和天气类这两个类别的重点词中出现过,那么[地名]的IDF为1/2=0.5。N的值可以根据样本规模以及实际需求来设定,同时,对于不同的类别,N的值也可以不同。
上述操作S301-S302为机器学习训练单元20对基于改进TF-IDF算法的机器学习识别模型的训练过程,在经过大量被正确分类的样本的训练后,需求识别单元30中的机器学习识别子单元32能够根据机器学习识别模型能够准确对query进行分类。
需要说明的是,除了以模式匹配树分类子单元31根据模式匹配树的分类结果作为机器学习识别模型的训练样本外,还可以通过别的方式挖掘标注有需求类别的query作为机器学习识别模型的训练样本,例如,可以通过人工对模式匹配树无法识别分类的query进行类别标注后作为训练样本,作为对模式匹配树分类结果的补充,还可以在线上引导用户对其输入的query进行类别标注,将标注结果作为训练样本。通过多种方式获取全面的训练样本,能够使得训练后的机器学习识别模型更为准确地对query进行分类。
需求识别单元30,用于根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。
需求识别单元30包括:模式匹配树分类子单元31和机器学习识别子单元32,可以根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类
模式匹配树分类子单元31,用于根据所述模式匹配树建立单元10所建立的模式匹配树对query进行匹配分类。
模式匹配树分类子单元31可以根据模式匹配树构造单元10构造的模式匹配树对query进行匹配识别,这一过程具体可以执行下述操作来实现:对query进行分词以及归一化处理,从各个模式匹配树的第二层节点开始,依次对query中的词进行匹配,若query中的每个词均能和模式匹配树中某路径的各节点匹配,则认为该query属于该模式匹配树所对应的类别。
机器学习识别子单元32,用于根据机器学习识别模型对query进行识别分类。
机器学习识别子单元32将query进行分词并将属于固定类别的词归一化后,分别查看query的中属于各个别类重点词的分词,将query中属于某一类别的重点词的各个分词TF与IDF的乘积相加,作为该query对于该类的权重值,根据query对应各个类别的权重值,将query划为所得权重值最高的类别。
在实际对用户输入的query进行分类时,可以结合模式匹配树分类子单元31和机器学习识别子单元32分别根据模式匹配树和机器学习识别模型来对query进行分类,具体可以是:模式匹配树分类子单元31先根据模式匹配树对用户输入的query进行匹配分类,若用户输入的query能够与某一类别模式匹配树中某一路径匹配,则认为用户输入的query属于该类别;若用户输入的query无法与任一类别模式匹配树中的任一路径匹配,则利用机器学习识别子单元32根据机器学习识别模型对该query进行识别分类。
本发明提供的查询词需求分析装置还可以包括反馈单元40,用于利用需求识别单元30中机器学习识别子单元32根据机器学习识别模型对用户输入的query的分类结果扩充对应的类别模式词典。
反馈单元40可以根据机器学习识别模型的识别分类结果来对类别模式词典进行补充,扩展模式匹配树的匹配识别范围。同时,也可以进一步地将模式匹配树新的匹配识别结果作为样本通过机器学习训练单元20来训练机器学习识别模型,使得模式匹配树与机器学习识别模型两者之间相互反馈,对各自的分类方法进行完善。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种查询词需求分析的方法,其特征在于,该方法包括:
模型建立过程:根据由各类别的query模式构成的各类别模式词典,分别预先建立与各个类别对应的模式匹配树;将依据所述模式匹配树得到的各类别query作为样本来训练机器学习识别模型;
其中,在建立某类别对应的模式匹配树时,具体包括:初始化所述模式匹配树的根节点;依据所述某类别的类别模式词典中各query模式的词语顺序,分别建立根节点的各级子节点,使得从根节点的第一级子节点开始至叶节点的各路径分别构成所述各query模式;
需求识别过程:根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。
2.根据权利要求1所述的方法,其特征在于,所述需求识别过程具体包括:
利用模式匹配树对所述用户输入的query进行匹配,如果存在匹配的路径,则确定存在匹配的路径的模式匹配树对应的类别为所述用户输入的query所属的类别;如果不存在匹配的路径,则利用所述机器学习识别模型对所述用户输入的query进行分类,得到所述用户输入的query所属的类别。
3.根据权利要求1或2所述的方法,其特征在于,所述训练机器学习识别模型具体包括:
利用所述模式匹配树对预先收集的query进行分类,得到各类别的query样本;
对各类别的query样本分别进行分词和归一化处理,统计得到的各词语针对各类别的TF-IDF。
4.根据权利要求3所述的方法,其特征在于,利用所述机器学习识别模型对所述用户输入的query进行分类,具体包括:
将所述用户输入的query进行分词和归一化处理后,计算所述用户输入的query对于每个类别的权重,将最高权重值对应的类别确定为所述用户输入的query所属的类别,其中,所述用户输入的query对于某个类别的权重值为分词和归一化处理后得到的各词语中属于所述某类别的词语的TF-IDF之和。
5.根据权利要求1所述的方法,其特征在于,在训练机器学习识别模型时还结合人工标注的各类别query样本。
6.根据权利要求1所述的方法,其特在在于,该方法还进一步包括:
利用所述机器学习识别模型对用户输入的query的分类结果扩充对应的类别模式词典。
7.一种查询词需求分析的装置,其特征在于,该装置包括:
模式匹配树建立单元,用于根据由各类别的query模式构成的各类别模式词典,分别预先建立与各个类别对应的模式匹配树,包括:初始化所述模式匹配树的根节点;依据该类别的类别模式词典中各query模式的词语顺序,分别建立根节点的各级子节点,使得从根节点的第一级子节点开始至叶节点的各路径分别构成所述各query模式;
机器学习训练单元,用于将依据所述模式匹配树得到的各类别query作为样本来训练机器学习识别模型;
需求识别单元,用于根据所述模式匹配树和所述机器学习识别模型对用户输入的query进行分类。
8.根据权利要求7所述的装置,其特征在于,所述需求识别单元具体包括:
模式匹配树分类子单元,用于利用模式匹配树对所述用户输入的query进行匹配,如果存在匹配的路径,则确定存在匹配的路径的模式匹配树对应的类别为所述用户输入的query所属的类别;如果不存在匹配的路径,则触发机器学习识别子单元;
机器学习识别子单元,用于利用所述机器学习识别模型对所述用户输入的query进行分类,得到所述用户输入的query所属的类别。
9.根据权利要求7或8所述的装置,其特征在于,所述机器学习训练单元具体执行:
利用所述模式匹配树对预先收集的query进行分类的分类结果,得到各类别的query样本;
对各类别的query样本分别进行分词和归一化处理,统计得到的各词语针对各类别的TF-IDF。
10.根据权利要求9所述的装置,其特征在于,所述需求识别单元在利用所述机器学习识别模型对query进行分类时,具体执行:
将所述用户输入的query进行分词和归一化处理后,计算所述用户输入的query对于每个类别的权重,将最高权重值对应的类别确定为所述用户输入的query所属的类别,其中,所述用户输入的query对于某个类别的权重值为分词和归一化处理后得到的各词语中属于所述某类别的词语的TF-IDF之和。
11.根据权利要求7所述的装置,其特征在于,所述机器学习训练单元训练所述机器学习识别模型时,还结合人工标注的各类别query样本。
12.根据权利要求7所述的装置,其特征在于,该装置还进一步包括:
反馈单元,用于利用所述需求识别单元根据机器学习识别模型对用户输入的query的分类结果扩充对应的类别模式词典。
CN201210477861.XA 2012-11-22 2012-11-22 一种查询词需求分析的方法及装置 Active CN103838744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210477861.XA CN103838744B (zh) 2012-11-22 2012-11-22 一种查询词需求分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210477861.XA CN103838744B (zh) 2012-11-22 2012-11-22 一种查询词需求分析的方法及装置

Publications (2)

Publication Number Publication Date
CN103838744A CN103838744A (zh) 2014-06-04
CN103838744B true CN103838744B (zh) 2019-01-15

Family

ID=50802258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210477861.XA Active CN103838744B (zh) 2012-11-22 2012-11-22 一种查询词需求分析的方法及装置

Country Status (1)

Country Link
CN (1) CN103838744B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610932A (zh) * 2015-10-27 2017-05-03 中兴通讯股份有限公司 一种语料处理方法和装置及语料分析方法和装置
CN106919603B (zh) * 2015-12-25 2020-12-04 北京奇虎科技有限公司 计算查询词模式中分词权重的方法和装置
CN106951422B (zh) * 2016-01-07 2021-05-28 腾讯科技(深圳)有限公司 网页训练的方法和装置、搜索意图识别的方法和装置
CN105786977B (zh) * 2016-02-05 2020-03-03 北京百度网讯科技有限公司 基于人工智能的移动搜索方法和装置
CN105808529B (zh) * 2016-03-10 2018-06-08 语联网(武汉)信息技术有限公司 一种语料划分领域的方法和装置
CN106844482B (zh) * 2016-12-23 2021-01-29 北京奇虎科技有限公司 一种基于搜索引擎的检索信息匹配方法及装置
CN106951503B (zh) * 2017-03-16 2020-06-23 百度在线网络技术(北京)有限公司 信息提供方法、装置、设备以及存储介质
CN107133259A (zh) * 2017-03-22 2017-09-05 北京晓数聚传媒科技有限公司 一种搜索方法和装置
CN107168988B (zh) * 2017-03-27 2022-01-28 百度在线网络技术(北京)有限公司 查询彩票信息的方法、装置、设备和计算机存储介质
CN110209829B (zh) * 2018-02-12 2021-06-29 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN108763220A (zh) * 2018-06-08 2018-11-06 山东汇贸电子口岸有限公司 一种快速识别大量电商商品品牌的方法
CN109063217B (zh) * 2018-10-29 2020-11-03 广东电网有限责任公司广州供电局 电力营销系统中的工单分类方法、装置及其相关设备
CN110427517B (zh) * 2019-07-18 2023-04-25 华戎信息产业有限公司 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1804829A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种中文问题的语义分类方法
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
CN101673306A (zh) * 2009-10-19 2010-03-17 中国科学院计算技术研究所 网页信息查询方法及其系统
CN103020066A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
CN1804829A (zh) * 2006-01-10 2006-07-19 西安交通大学 一种中文问题的语义分类方法
CN101673306A (zh) * 2009-10-19 2010-03-17 中国科学院计算技术研究所 网页信息查询方法及其系统
CN103020066A (zh) * 2011-09-21 2013-04-03 北京百度网讯科技有限公司 一种识别搜索需求的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文问答系统中问题分类和关键词扩展的研究;冯晓波;《中国优秀硕士学位论文全文库》;20110915(第9期);第8、20-21、25、27、29-30、39页
受限领域问答系统的中文问句分析研究;陈康等;《计算机工程》;20080531;第34卷(第10期);第26-27页

Also Published As

Publication number Publication date
CN103838744A (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
CN103838744B (zh) 一种查询词需求分析的方法及装置
CN104239858B (zh) 一种人脸特征验证的方法和装置
CN106202177B (zh) 一种文本分类方法及装置
CN105589806B (zh) 一种基于SMOTE+Boosting算法的软件缺陷倾向预测方法
CN106951825A (zh) 一种人脸图像质量评估系统以及实现方法
CN104156734B (zh) 一种基于随机蕨分类器的全自主在线学习方法
CN104978587B (zh) 一种基于文档类型的实体识别合作学习算法
CN102571486B (zh) 一种基于BoW模型和统计特征的流量识别方法
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN108765383B (zh) 基于深度迁移学习的视频描述方法
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN105069483B (zh) 一种对分类数据集进行测试的方法
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN104750875A (zh) 一种机器错误数据分类方法及系统
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN104102917A (zh) 域自适应分类器的构造及数据分类的方法和装置
CN109902202A (zh) 一种视频分类方法及装置
CN111966875A (zh) 一种敏感信息识别方法和装置
CN108681739A (zh) 一种基于用户情感和时间动态的旅游目的地推荐方法
CN109299753A (zh) 一种用于法律文本信息挖掘的集成学习方法及系统
CN106228139A (zh) 一种基于卷积网络的表观年龄预测算法及其系统
CN110427458A (zh) 基于双门lstm的社交网络双语的五分类情感分析方法
CN109214407A (zh) 事件检测模型、方法、装置、计算设备及存储介质
Ragib et al. Pakhichini: Automatic bird species identification using deep learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant