CN103823809A - 一种对查询短语分类的方法、分类优化的方法及其装置 - Google Patents
一种对查询短语分类的方法、分类优化的方法及其装置 Download PDFInfo
- Publication number
- CN103823809A CN103823809A CN201210466727.XA CN201210466727A CN103823809A CN 103823809 A CN103823809 A CN 103823809A CN 201210466727 A CN201210466727 A CN 201210466727A CN 103823809 A CN103823809 A CN 103823809A
- Authority
- CN
- China
- Prior art keywords
- classification
- extensive
- sorted
- phrase
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种对查询短语分类的方法、分类优化的方法及其装置,其中对查询短语分类的方法包括:A.对各类别的样本查询短语分别进行切分,得到各类别的样本分词;B.利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词;C.确定各样本泛化分词在所属类别的重要性权重;D.利用各样本泛化分词及其在所属类别的重要性权重,确定待分类查询短语所属类别。通过上述方式,可以有效提高对查询短语分类时的准确性。
Description
【技术领域】
本发明涉及自然语言处理技术,特别涉及一种对查询短语分类的方法、分类优化的方法及其装置。
【背景技术】
在自然语言处理中,对长文本进行分类公知已有很多成熟的方法,例如K近邻文本分类法。在该方法中,首先对训练样本进行特征抽取,形成特征空间,然后对待分类实例进行特征抽取,形成特征向量,接着在特征空间中找到离该特征向量最近的K个训练样本,最后根据这些训练样本的类别,投票决定待分类实例的类别。
由于长文本包含的信息量比较多,在确定特征空间时,可以利用的信息也比较多,因此,采用上述方法对长文本进行分类的效果较好,但是,这种方法在对短文本进行分类时,由于短文本包含的信息量较少,确定各类别的特征空间就会存在困难,因此现有的文本分类技术在对短文本进行分类时,例如对搜索引擎检索时使用的查询短语进行分类时,存在着准确度较低的缺陷。
【发明内容】
本发明所要解决的技术问题是提供一种对查询短语分类的方法、分类优化的方法及其装置,以解决现有技术在对查询短语进行分类时,准确性较低的问题。
本发明为解决技术问题而采用的技术方案是提供一种对查询短语分类的方法,包括:A.对各类别的样本查询短语分别进行切分,得到各类别的样本分词;B.利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词;C.确定各样本泛化分词在所属类别的重要性权重;D.利用各样本泛化分词及其在所属类别的重要性权重,确定待分类查询短语所属类别。
根据本发明之一优选实施例,根据下列公式确定样本泛化分词T在所属类别K的重要性权重:w=tf*idf,其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
根据本发明之一优选实施例,所述步骤D包括:针对各类别,选取该类别中重要性权重排名前N位的样本泛化分词作为该类别的特征词,其中所述N为正整数;对待分类查询短语进行切分;利用预设的泛化词表,对待分类查询短语的各分词进行泛化,得到待分类查询短语的泛化分词;针对各类别,确定该类别中与待分类查询短语的泛化分词相匹配的特征词,并利用所述相匹配的特征词在该类别的重要性权重计算待分类查询短语属于该类别的分类可能性;选取分类可能性最高的类别为待分类查询短语所属类别。
本发明还提供了一种对查询短语的分类进行优化的方法,包括:a.采用前文所述的方法对待分类查询短语进行分类,得到初始类别;b.向标注用户提供待分类查询短语,以及备选的所述初始类别及干扰类别,并获取标注用户在所述初始类别及所述干扰类别中做出的选择;c.确定标注用户的选择与所述初始类别是否匹配,如果否,则向验证用户提供标注用户选定的类别,以及备选的待分类查询短语及干扰短语,并获取验证用户在待分类查询短语及所述干扰短语中做出的选择;d.根据验证用户的选择确定待分类查询短语的最终类别。
根据本发明之一优选实施例,所述步骤c中,当超过预设的第一比例的标注用户的选择与所述初始类别不同时,确定标注用户的选择与所述初始类别不匹配,并且将超过预设的第二比例的标注用户选择的干扰类别作为标注用户选定的类别。
根据本发明之一优选实施例,所述步骤d中,当超过预设的第三比例的验证用户选择待分类查询短语时,将标注用户选定的类别作为待分类查询短语的最终类别。
7、根据权利要求4所述的方法,其特征在于,所述步骤c中,当标注用户的选择与所述初始类别匹配时,将所述初始类别作为待分类查询短语的最终类别。
本发明还提供了一种对查询短语进行分类的装置,包括:第一切分单元,用于对各类别的样本查询短语进行切分,得到各类别的样本分词;第一泛化单元,用于利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词;权重确定单元,用于确定各样本泛化分词在所属类别的重要性权重;分类单元,用于利用各样本泛化分词及其在所属类别的重要性权重,确定待分类的查询短语所属类别。
根据本发明之一优选实施例,所述权重确定单元根据下列公式确定样本泛化分词T在所属类别K的重要性权重:w=tf*idf,其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
根据本发明之一优选实施例,所述分类单元包括:特征词选取单元,用于针对各类别,选取该类别中重要性权重排名前N位的样本泛化分词作为该类别的特征词,其中所述N为正整数;第二切分单元,用于对待分类查询短语进行切分;第二泛化单元,用于利用预设的泛化词表,对待分类查询短语的各分词进行泛化,得到待分类查询短语的泛化分词;计算单元,用于针对各类别,确定该类别中与待分类查询短语的泛化分词相匹配的特征词,并利用所述相匹配的特征词在该类别的重要性权重计算待分类查询短语属于该类别的分类可能性;类别选取单元,用于选取分类可能性最高的类别为待分类查询短语所属类别。
本发明还提供了一种对查询短语的分类进行优化的装置,包括:前文所述的装置,用于对待分类查询短语进行分类,得到初始类别;第一获取单元,用于向标注用户提供待分类查询短语,以及备选的所述初始类别及干扰类别,并获取标注用户在所述初始类别及所述干扰类别中做出的选择;第二获取单元,用于确定标注用户的选择与所述初始类别是否匹配,如果否,则向验证用户提供标注用户选定的类别,以及备选的待分类查询短语及干扰短语,并获取验证用户在待分类查询短语及所述干扰短语中做出的选择;类别确定单元,用于根据验证用户的选择确定待分类查询短语的最终类别。
根据本发明之一优选实施例,所述第二获取单当超过预设的第一比例的标注用户的选择与所述初始类别不同时,确定标注用户的选择与所述初始类别不匹配,并且将超过预设的第二比例的标注用户选择的干扰类别作为标注用户选定的类别。
根据本发明之一优选实施例,所述类别确定单元当超过预设的第三比例的验证用户选择待分类查询短语时,将标注用户选定的类别作为待分类查询短语的最终类别。
根据本发明之一优选实施例,所述第二获取单元当标注用户的选择与所述初始类别匹配时,将所述初始类别作为待分类查询短语的最终类别。
由以上技术方案可以看出,本发明对查询短语进行分类时,引入了泛化的技术手段,可以有效地增强短文本的表意能力,从而使得短文本分类的准确性大为提高。同时,将查询短语分类的初始结果提供给不同类型的用户进行校验,充分利用了用户对初始结果进行纠错的能力,并且还能有效防止用户作弊引入的分类主观性,保证了最终分类结果的客观和准确。
【附图说明】
图1为本发明中对查询短语分类的方法的实施例的流程示意图;
图2为本发明中对查询短语的分类进行优化的方法的实施例的流程示意图;
图3为本发明中向标注用户提供选项的实施例的示意图;
图4为本发明中向验证用户提供选项的实施例的示意图;
图5为本发明中对查询短语进行分类的装置的实施例的结构示意框图;
图6为本发明中分类单元304的实施例的结构示意框图;
图7为本发明中对查询短语的分类进行优化的装置的实施例的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中对查询短语分类的方法的实施例的流程示意图。如图1所示,该实施例包括:
步骤S101:对各类别的样本查询短语分别进行切分,得到各类别的样本分词。
步骤S102:利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词。
步骤S103:确定各样本泛化分词在所属类别的重要性权重。
步骤S104:利用各样本泛化分词及其在所属类别的重要性权重,确定待分类查询短语所属类别。
下面对上述步骤进行具体说明。
上述实施例中的查询短语(query),指的是用户从搜索引擎获取想要信息时使用的短文本。在本实施例中,可以预先根据用户历史搜索记录,选取各类别的样本查询短语。
例如,查询短语总共分为地图需求、天气需求、计算需求几个类别。其中各类别的样本查询短语如下:
一、地图需求的样本查询短语包括:
北京大学怎么走
圆明园怎么走
故宫在哪里
二、天气需求的样本查询短语包括:
福州今天天气怎么样
北京天气
上海明天天气
三、计算需求的样本查询短语包括:
1美元等于多少人民币
2的100次方等于多少
20摄氏度等于多少华氏度
步骤S101中,对上述样本查询短语分别进行切分后,可以得到各类别的样本分词如下:
一、地图需求的样本分词包括:
北京大学/怎么/走
圆明园/怎么/走
故宫/在/哪里
二、天气需求的样本分词包括:
福州/今天/天气/怎么/样
北京/天气
上海/明天/天气
三、计算需求的样本分词包括:
1/美元/等于/多少/人民币
2/的/100/次方/等于/多少
20/摄氏度/等于/多少/华氏度
上述符号“/”表示分隔符,由分隔符间隔的就是一个分词。
步骤S102,泛化词表是一个模式映射表,请参考表1,表1是泛化词表的实施例的示意:
表1
以上述泛化词表为例,步骤S102在对各类别的样本分词进行泛化处理后,可以得到各类别的样本泛化分词如下:
一、地图需求的样本泛化分词包括:
【地名】/怎么/走
【地名】/怎么/走
【地名】/在/哪里
二、天气需求的样本泛化分词包括:
【地名】/【日期】/天气/怎么/样
【地名】/天气
【地名】/【日期】/天气
三、计算需求的样本泛化分词包括:
【数字】/【单位】/等于/多少/【单位】
【数字】/的/【数字】/次方/等于/多少
【数字】/【单位】/等于/多少/【单位】
步骤S103中,具体可根据下列公式确定一个样本泛化分词T在所属类别K的重要性权重:
w=tf*idf,其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
例如,样本泛化分词【地名】可按下面方式计算其在地图需求的重要性权重。【地名】的(因为【地名】在地图需求中出现了3次,并且地图需求中所有样本泛化分词出现的次数为9),(因为地图需求及天气需求均包含【地名】这个样本泛化分词,即包含【地名】的类别数量是2)。因此【地名】在地图需求的重要性权重w=0.33*0.5=0.165。
按照类似的算法,每个样本泛化分词均可计算一个在所属类别的重要性权重。这样,在步骤S104中就可以根据各类别的样本泛化分词及其在该类别的重要性权重,确定待分类查询短语归属于各个类别的可能性。
作为一种实施方式,步骤S104具体包括:
步骤S1041:针对各类别,选取该类别中重要性权重排名前N位的样本泛化分词作为该类别的特征词,其中N为正整数。
步骤S1042:对待分类查询短语进行切分。
步骤S1043:利用预设的泛化词表,对待分类查询短语的各分词进行泛化,得到待分类查询短语的泛化分词。
步骤S1044:针对各类别,确定该类别中与待分类查询短语的泛化分词相匹配的特征词,并利用相匹配的特征词在该类别的重要性权重计算待分类查询短语属于该类别的可能性。
步骤S1045:选取分类可能性最高的类别作为待分类查询短语所属类别。
假设步骤S1041中的N为3,则前面例子中各类别的特征词及其在所属类别的重要性权重如下:
一、地图需求的特征词:
怎么=0.22,走=0.22,【地名】=0.165
二、天气需求的特征词:
天气=0.3,【日期】=0.2,【地名】=0.15
三、计算需求的特征词:
【数字】=0.25,【单位】=0.25,等于=0.19,多少=0.19
假设待分类查询短语为“雍和宫怎么走”,则通过步骤S1042和步骤S1043后,可以得到待分类查询短语的泛化分词为“【地名】/怎么/走”,其中步骤S1043中可以采用与步骤S102相同的泛化词表。
步骤S1043中可以确定,在地图需求中,与待分类查询短语的泛化分词匹配的特征词有“【地名】、怎么、走”,在天气需求中,匹配的特征词有“【地名】”,在计算需求中,没有匹配的特征词。
因此“雍和宫怎么走”属于各类别的分类可能性如下:
一、地图需求的分类可能性=0.22+0.22+0.165=0.605
二、天气需求的分类可能性=0.165
三、计算需求的分类可能性=0
因此在步骤S1044中将地图需求确定为“雍和宫怎么走”所属类别。
以上说明对图1的实施例进行了具体说明,通过上述方式,本实施例可以很好地确定短文本类型的查询短语的类别,从而帮助搜索引擎理解用户查询短语的需求。
请参考图2,图2为本发明中对查询短语的分类进行优化的方法的实施例的流程示意图。如图2所示,该实施例包括:
步骤S201:采用图1所示的方法对待分类查询短语进行分类,得到初始类别。
步骤S202:向标注用户提供待分类查询短语,以及备选的初始类别及干扰类别,并获取标注用户在初始类别及干扰类别中做出的选择。
步骤S203:确定标注用户的选择与初始类别是否匹配,如果否,则向验证用户提供标注用户选定的类别,以及备选的待分类查询短语及干扰短语,并获取验证用户在待分类查询短语及干扰短语中做出的选择。
步骤S204:根据验证用户的选择确定待分类查询短语的最终类别。
例如步骤S201中采用图1所示的方法确定待分类查询短语“雍和宫开放时间”的初始类别为“地图需求”。
请参考图3,图3为本发明中向标注用户提供选项的实施例的示意图。其中“雍和宫开放时间”是待分类查询短语,“地图需求”为初始类别,“天气需求”、“图片需求”、“换算需求”、“其他”均是干扰类别。
步骤S202中会向多个标注用户提供图3所示的选项,并获取标注用户做出的选择。在步骤S203中,当超过预设的第一比例的标注用户的选择与初始类别不同时,确定标注用户的选择与初始类别不匹配,并且将超过预设的第二比例的标注用户的选择的干扰类别作为标注用户选定的类别。例如超过90%的标注用户都没有选择“地图需求”,并且有80%的标注用户选择的都是“旅游需求”,这时就认为标注用户的选择与初始类别不匹配,并且“旅游需求”就是标注用户选定的类别。但是如果超过90%的标注用户选择的都是“地图需求”,则可以将初始类别“地图需求”作为“雍和宫开放时间”的最终需求。
步骤S203中,如果标注用户的选择与初始类别不匹配,则还需要向验证用户提供如图4所示的选项。图4中,“旅游需求”是标注用户选定的类别,“雍和宫开放时间”是待分类查询短语,“北京天气”、“刘德华图片”、“1美元等于多少人民币”、“无匹配词语”均是干扰短语。
步骤S203中,将图4所示的选项提供给多个验证用户,当超过预设的第三比例的验证用户针对“旅游需求”选择的都是“雍和宫开放时间”的时候,就可以将标注用户选定的类别“旅游需求”作为“雍和宫开放时间”的最终类别。例如超过70%的验证用户针对“旅游需求”均选择了待分类查询短语“雍和宫开放时间”,则可以确认待分类查询短语“雍和宫开放时间”的类别应该是“旅游需求”。
上述的干扰类别及干扰短语,均可以采用随机的方式从数据库抽取。
上述实施例具体说明了本发明中对查询短语的分类进行优化的方法。通过上述方法,可以有效纠正对查询短语的初始分类错误。此外,通过上述实施例的双向校验机制(标注用户及验证用户的校验),能够有效防止用户选择时的作弊现象,保证查询短语最终分类的客观性。
请参考图5,图5为本发明中对查询短语进行分类的装置的实施例的结构示意框图。如图5所示,该实施例的装置300包括:第一切分单元301、第一泛化单元302、权重确定单元303及分类单元304。
其中第一切分单元301,用于对各类别的样本查询短语进行切分,得到各类别的样本分词。
第一泛化单元302,用于利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词。
权重确定单元303,用于确定各样本泛化分词在所属类别的重要性权重。
分类单元304,用于利用个样本泛化分词及其在所属类别的重要性权重,确定待分类的查询短语所属类别。
其中,权重确定单元303根据下列公式确定样本泛化分词T在所属类别K的重要性权重:w=tf*idf,其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
请参考图6,图6是本发明中分类单元304的实施例的结构示意框图。如图6所示,该实施例包括:特征词选取单元3041、第二切分单元3042、第二泛化单元3043、计算单元3044及类别选取单元3045。
特征词选取单元3041,用于针对各类别,选取该类别中重要性权重排名前N位的样本泛化分词作为该类别的特征词,其中N为正整数。
第二切分单元3042,用于对待分类查询短语进行切分。
第二泛化单元3043,用于利用预设的泛化词表,对待分类查询短语的各分词进行泛化,得到待分类查询短语的泛化分词。
计算单元3044,用于针对各类别,确定该类别中与待分类查询短语的泛化分词相匹配的特征词,并利用相匹配的特征词在该类别的重要性权重计算待分类查询短语属于该类别的分类可能性。
类别选取单元3045,用于选取分类可能性最高的类别为待分类查询短语所属类别。
请参考图7,图7为本发明中对查询短语的分类进行优化的装置的实施例的结构示意框图。如图7所示,该实施例的装置包括:图5所示的对查询短语分类的装置300、第一获取单元401、第二获取单元402及类别确定单元403。
其中对查询短语进行分类的装置300,用于对待分类查询短语进行分类,得到初始类别。
第一获取单元401,用于向标注用户提供待分类查询短语,以及备选的初始类别及干扰类别,并获取标注用户在初始类别及干扰类别中做出的选择。
第二获取单元402,用于确定标注用户的选择与初始类别是否匹配,如果否,则向验证用户提供标注用户选定的类别,以及备选的待分类查询短语及干扰短语,并获取验证用户在待分类查询短语及干扰短语中做出的选择。
类别确定单元403,用于根据验证用户的选择确定待分类查询短语的最终类别。
其中,第二获取单元402,当超过预设的第一比例的标注用户的选择与初始类不同时,确定标注用户的选择与初始类别不匹配,并且将超过预设的第二比例的标注用户选择的干扰类别作为标注用户选定的类别。此外,第二获取单元402,当标注用户的选择与初始类别匹配时,将初始类别作为待分类查询短语的最终类别。
其中,类别确定单元403,当超过预设的第三比例的验证用户选择待分类查询短语时,将标注用户选定的类别作为待分类查询短语的最终类别。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (14)
1.一种对查询短语分类的方法,包括:
A.对各类别的样本查询短语分别进行切分,得到各类别的样本分词;
B.利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词;
C.确定各样本泛化分词在所属类别的重要性权重;
D.利用各样本泛化分词及其在所属类别的重要性权重,确定待分类查询短语所属类别。
2.根据权利要求1所述的方法,其特征在于,所述步骤C中,根据下列公式确定样本泛化分词T在所属类别K的重要性权重:
w=tf*idf,其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
3.根据权利要求1所述的方法,其特征在于,所述步骤D包括:
针对各类别,选取该类别中重要性权重排名前N位的样本泛化分词作为该类别的特征词,其中所述N为正整数;
对待分类查询短语进行切分;
利用预设的泛化词表,对待分类查询短语的各分词进行泛化,得到待分类查询短语的泛化分词;
针对各类别,确定该类别中与待分类查询短语的泛化分词相匹配的特征词,并利用所述相匹配的特征词在该类别的重要性权重计算待分类查询短语属于该类别的分类可能性;
选取分类可能性最高的类别为待分类查询短语所属类别。
4.一种对查询短语的分类进行优化的方法,包括:
a.采用权利要求1至3中任一权项所述的方法对待分类查询短语进行分类,得到初始类别;
b.向标注用户提供待分类查询短语,以及备选的所述初始类别及干扰类别,并获取标注用户在所述初始类别及所述干扰类别中做出的选择;
c.确定标注用户的选择与所述初始类别是否匹配,如果否,则向验证用户提供标注用户选定的类别,以及备选的待分类查询短语及干扰短语,并获取验证用户在待分类查询短语及所述干扰短语中做出的选择;
d.根据验证用户的选择确定待分类查询短语的最终类别。
5.根据权利要求4所述的方法,其特征在于,所述步骤c中,当超过预设的第一比例的标注用户的选择与所述初始类别不同时,确定标注用户的选择与所述初始类别不匹配,并且将超过预设的第二比例的标注用户选择的干扰类别作为标注用户选定的类别。
6.根据权利要求4所述的方法,其特征在于,所述步骤d中,当超过预设的第三比例的验证用户选择待分类查询短语时,将标注用户选定的类别作为待分类查询短语的最终类别。
7.根据权利要求4所述的方法,其特征在于,所述步骤c中,当标注用户的选择与所述初始类别匹配时,将所述初始类别作为待分类查询短语的最终类别。
8.一种对查询短语进行分类的装置,包括:
第一切分单元,用于对各类别的样本查询短语进行切分,得到各类别的样本分词;
第一泛化单元,用于利用预设的泛化词表,对各类别的样本分词进行泛化,得到各类别的样本泛化分词;
权重确定单元,用于确定各样本泛化分词在所属类别的重要性权重;
分类单元,用于利用各样本泛化分词及其在所属类别的重要性权重,确定待分类的查询短语所属类别。
9.根据权利要求8所述的装置,其特征在于,所述权重确定单元根据下列公式确定样本泛化分词T在所属类别K的重要性权重:
w=tf*idf,其中,所述w是所述T在所述K的重要性权重,所述tf与所述T在所述K中出现的次数成正比且与所述K中所有样本泛化分词出现的次数成反比,所述idf与所有类别中包含所述T的类别数量成反比。
10.根据权利要求8所述的装置,其特征在于,所述分类单元包括:
特征词选取单元,用于针对各类别,选取该类别中重要性权重排名前N位的样本泛化分词作为该类别的特征词,其中所述N为正整数;
第二切分单元,用于对待分类查询短语进行切分;
第二泛化单元,用于利用预设的泛化词表,对待分类查询短语的各分词进行泛化,得到待分类查询短语的泛化分词;
计算单元,用于针对各类别,确定该类别中与待分类查询短语的泛化分词相匹配的特征词,并利用所述相匹配的特征词在该类别的重要性权重计算待分类查询短语属于该类别的分类可能性;
类别选取单元,用于选取分类可能性最高的类别为待分类查询短语所属类别。
11.一种对查询短语的分类进行优化的装置,包括:
权利要求8至10中任一权项所述的装置,用于对待分类查询短语进行分类,得到初始类别;
第一获取单元,用于向标注用户提供待分类查询短语,以及备选的所述初始类别及干扰类别,并获取标注用户在所述初始类别及所述干扰类别中做出的选择;
第二获取单元,用于确定标注用户的选择与所述初始类别是否匹配,如果否,则向验证用户提供标注用户选定的类别,以及备选的待分类查询短语及干扰短语,并获取验证用户在待分类查询短语及所述干扰短语中做出的选择;
类别确定单元,用于根据验证用户的选择确定待分类查询短语的最终类别。
12.根据权利要求11所述的装置,其特征在于,所述第二获取单当超过预设的第一比例的标注用户的选择与所述初始类别不同时,确定标注用户的选择与所述初始类别不匹配,并且将超过预设的第二比例的标注用户选择的干扰类别作为标注用户选定的类别。
13.根据权利要求11所述的装置,其特征在于,所述类别确定单元当超过预设的第三比例的验证用户选择待分类查询短语时,将标注用户选定的类别作为待分类查询短语的最终类别。
14.根据权利要求11所述的装置,其特征在于,所述第二获取单元当标注用户的选择与所述初始类别匹配时,将所述初始类别作为待分类查询短语的最终类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210466727.XA CN103823809B (zh) | 2012-11-16 | 2012-11-16 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210466727.XA CN103823809B (zh) | 2012-11-16 | 2012-11-16 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103823809A true CN103823809A (zh) | 2014-05-28 |
CN103823809B CN103823809B (zh) | 2018-06-08 |
Family
ID=50758880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210466727.XA Active CN103823809B (zh) | 2012-11-16 | 2012-11-16 | 一种对查询短语分类的方法、分类优化的方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103823809B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893533A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种文本匹配方法及装置 |
CN108763246A (zh) * | 2018-03-29 | 2018-11-06 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN109816168A (zh) * | 2019-01-23 | 2019-05-28 | 南方电网科学研究院有限责任公司 | 一种用于电气设备的数据预测系统 |
CN110134791A (zh) * | 2019-05-21 | 2019-08-16 | 北京泰迪熊移动科技有限公司 | 一种数据处理方法、电子设备及存储介质 |
CN113704433A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 人机对话语音意图识别方法、装置、设备及存储介质 |
CN115759072A (zh) * | 2022-11-21 | 2023-03-07 | 时趣互动(北京)科技有限公司 | 一种特征词分类方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267397A (ja) * | 2004-03-19 | 2005-09-29 | Oki Electric Ind Co Ltd | 語句分類システム、語句分類方法、および語句分類プログラム |
CN101477563A (zh) * | 2009-01-21 | 2009-07-08 | 北京百问百答网络技术有限公司 | 一种短文本聚类的方法、系统及其数据处理装置 |
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
CN101685441A (zh) * | 2008-09-24 | 2010-03-31 | 中国科学院自动化研究所 | 一种基于非连续短语的泛化重排序统计翻译方法及装置 |
CN102073707A (zh) * | 2010-12-22 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 用于实时识别短文本类别信息的方法、装置及计算机设备 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN102368260A (zh) * | 2011-10-12 | 2012-03-07 | 北京百度网讯科技有限公司 | 一种生成领域需求模版的方法及其装置 |
CN102375863A (zh) * | 2010-08-27 | 2012-03-14 | 北京四维图新科技股份有限公司 | 一种地理信息领域的关键字提取的方法及装置 |
CN102541958A (zh) * | 2010-12-30 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 一种用于识别短文本类别信息的方法、装置和计算机设备 |
CN102542474A (zh) * | 2010-12-07 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 查询结果排序方法及装置 |
-
2012
- 2012-11-16 CN CN201210466727.XA patent/CN103823809B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005267397A (ja) * | 2004-03-19 | 2005-09-29 | Oki Electric Ind Co Ltd | 語句分類システム、語句分類方法、および語句分類プログラム |
CN101685441A (zh) * | 2008-09-24 | 2010-03-31 | 中国科学院自动化研究所 | 一种基于非连续短语的泛化重排序统计翻译方法及装置 |
CN101477563A (zh) * | 2009-01-21 | 2009-07-08 | 北京百问百答网络技术有限公司 | 一种短文本聚类的方法、系统及其数据处理装置 |
CN101621391A (zh) * | 2009-08-07 | 2010-01-06 | 北京百问百答网络技术有限公司 | 基于概率主题进行短文本分类的方法及系统 |
CN102375863A (zh) * | 2010-08-27 | 2012-03-14 | 北京四维图新科技股份有限公司 | 一种地理信息领域的关键字提取的方法及装置 |
CN102542474A (zh) * | 2010-12-07 | 2012-07-04 | 阿里巴巴集团控股有限公司 | 查询结果排序方法及装置 |
CN102073707A (zh) * | 2010-12-22 | 2011-05-25 | 百度在线网络技术(北京)有限公司 | 用于实时识别短文本类别信息的方法、装置及计算机设备 |
CN102541958A (zh) * | 2010-12-30 | 2012-07-04 | 百度在线网络技术(北京)有限公司 | 一种用于识别短文本类别信息的方法、装置和计算机设备 |
CN102194013A (zh) * | 2011-06-23 | 2011-09-21 | 上海毕佳数据有限公司 | 一种基于领域知识的短文本分类方法及文本分类系统 |
CN102368260A (zh) * | 2011-10-12 | 2012-03-07 | 北京百度网讯科技有限公司 | 一种生成领域需求模版的方法及其装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893533A (zh) * | 2016-03-31 | 2016-08-24 | 北京奇艺世纪科技有限公司 | 一种文本匹配方法及装置 |
CN108763246A (zh) * | 2018-03-29 | 2018-11-06 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN109816168A (zh) * | 2019-01-23 | 2019-05-28 | 南方电网科学研究院有限责任公司 | 一种用于电气设备的数据预测系统 |
CN110134791A (zh) * | 2019-05-21 | 2019-08-16 | 北京泰迪熊移动科技有限公司 | 一种数据处理方法、电子设备及存储介质 |
CN110134791B (zh) * | 2019-05-21 | 2022-03-08 | 北京泰迪熊移动科技有限公司 | 一种数据处理方法、电子设备及存储介质 |
CN113704433A (zh) * | 2021-08-31 | 2021-11-26 | 平安普惠企业管理有限公司 | 人机对话语音意图识别方法、装置、设备及存储介质 |
CN115759072A (zh) * | 2022-11-21 | 2023-03-07 | 时趣互动(北京)科技有限公司 | 一种特征词分类方法、装置、电子设备及存储介质 |
CN115759072B (zh) * | 2022-11-21 | 2024-03-12 | 时趣互动(北京)科技有限公司 | 一种特征词分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103823809B (zh) | 2018-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103823809A (zh) | 一种对查询短语分类的方法、分类优化的方法及其装置 | |
CN106202041B (zh) | 一种解决知识图谱中的实体对齐问题的方法和装置 | |
CN109918635A (zh) | 一种合同文本风险检测方法、装置、设备及存储介质 | |
CN104216876B (zh) | 信息文本过滤方法及系统 | |
CN107562918A (zh) | 一种数学题知识点发现与批量标签获取方法 | |
CN103336766A (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN105260359A (zh) | 语义关键词提取方法及装置 | |
CN107122352A (zh) | 一种基于k‑means、word2vec的抽取关键词的方法 | |
CN104537341B (zh) | 人脸图片信息获取方法和装置 | |
CN104317909B (zh) | 兴趣点数据的校验方法和装置 | |
CN103116588A (zh) | 一种个性化推荐方法及系统 | |
CN104424308A (zh) | 网页分类标准获取方法、装置及网页分类方法、装置 | |
CN104252507B (zh) | 一种企业数据匹配方法和装置 | |
CN104391885A (zh) | 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法 | |
CN101727464A (zh) | 获取别称匹配对的方法及装置 | |
CN105095196B (zh) | 文本中新词发现的方法和装置 | |
CN101299217A (zh) | 一种地图信息处理的方法、装置和系统 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN112948429B (zh) | 一种数据报送方法、装置和设备 | |
CN110110610A (zh) | 一种用于短视频的事件检测方法 | |
CN106844337A (zh) | 一种合同缺失条款自动扫描方法及系统 | |
CN102521713B (zh) | 数据处理装置和数据处理方法 | |
CN106202203A (zh) | 基于终身主题模型的bug知识库的建立方法 | |
CN109344233B (zh) | 一种中文人名识别方法 | |
CN102314464A (zh) | 歌词搜索方法及搜索引擎 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |