CN103377224A - 识别问题类型的方法及装置、建立识别模型的方法及装置 - Google Patents

识别问题类型的方法及装置、建立识别模型的方法及装置 Download PDF

Info

Publication number
CN103377224A
CN103377224A CN2012101235344A CN201210123534A CN103377224A CN 103377224 A CN103377224 A CN 103377224A CN 2012101235344 A CN2012101235344 A CN 2012101235344A CN 201210123534 A CN201210123534 A CN 201210123534A CN 103377224 A CN103377224 A CN 103377224A
Authority
CN
China
Prior art keywords
word
type
monobasic
binary
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012101235344A
Other languages
English (en)
Other versions
CN103377224B (zh
Inventor
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210123534.4A priority Critical patent/CN103377224B/zh
Publication of CN103377224A publication Critical patent/CN103377224A/zh
Application granted granted Critical
Publication of CN103377224B publication Critical patent/CN103377224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种识别问题类型的方法及装置、建立识别模型的方法及装置,在建立问题识别模型的过程中,基于包含疑问词或需求词的文本片段在类别中的绝对出现频率以及相比较其他类别的相对出现频率来确定其是否属于该类别的特征片段,从而能够准确地定位出包含疑问词或需求词的文本片段所述的类型,提高了问题类型的识别准确性。另外还可以利用问题类别识别模型对训练语料重新进行分类作为更新后的训练语料,通过这种迭代方式逐步优化问题类型识别模型。如果基于该方式进行问题类型识别并用于搜索,则能够进一步提高搜索精度。

Description

识别问题类型的方法及装置、建立识别模型的方法及装置
【技术领域】
本发明涉及计算机网络技术,特别涉及一种识别问题类型的方法及装置、建立相应识别模型的方法及装置。
【背景技术】
随着计算机技术的迅猛发展,网络已经逐渐成为人们获取信息的主要手段。当人们希望从网络中获取信息时,往往通过诸如搜索引擎、知识平台等输入搜索项(query),这就需要搜索引擎或知识平台对用户需求进行识别,其中识别问题类型就在用户需求的识别中占有重要地位。例如,当用户向搜索引擎输入时间类的query,则搜索引擎就可以将包含对应时间属性值的网页排在搜索结果中靠前的位置。再例如,用户分别在知识平台输入“姚明的身高”和“魔兽世界怎么下载”,则应该识别出前一个query为数字中高度类别,后一个query为描述方法类别,属于不同的问题类型,应有针对性的返回对应的答案。
现有的问题类别识别方法单纯基于疑问词,即预先建立各疑问词所对应的问题类型,获取到用户输入的query后,抽取出该query中包含的疑问词,然后确定该疑问词所对应的问题类型作为该query的问题类型。这种方式具备以下缺陷:
不同问题类型有可能用到同一个疑问词,那么具体应该对应哪一种问题类型则存在模糊地带,通过该方法则无法有效区分,识别准确性较差。
【发明内容】
有鉴于此,本发明提供了一种识别问题类型的方法及装置、建立相应识别模型的方法及装置,以便于提高问题类型的识别准确性。
具体技术方案如下:
一种建立问题类型识别模型的方法,该方法包括:
S1、从训练语料中获取包含疑问词或需求词的文本片段,所述训练语料包含预先划分出类型的问题集合;
S2、如果所述文本片段满足预设的条件,则确定所述文本片段为第i个类型的特征片段,所述条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值;
S3、针对训练语料中获取到的所有文本片段都执行所述步骤S2后,建立问题类型识别模型,所述问题类型识别模型包括:各类型的特征片段。
根据本发明一优选实施例,在确定所述文本片段为第i个类型的特征片段时,所述条件进一步包括:所述文本片段在其他各类型的问题集合中出现的文档频率均低于预设的第二出现频率阈值。
根据本发明一优选实施例,所述问题类型识别模型还包括:特征片段在所属类型中的权值;
特征片段在对应类型中的权值由特征片段在所属类型的问题集合中出现的文档频率与在所有训练语料中出现的文档频率的比值确定。
根据本发明一优选实施例,所述文本片段为一元词、一元词在训练语料中向前或向后扩展得到的二元词、所述二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
根据本发明一优选实施例,在所述S1中获取一元词,该一元词为一元疑问词或一元需求词;
针对该一元词执行所述步骤S2,如果确定该一元词为第i个类型的特征片段,则不针对该一元词进行扩展,否则将该一元词在训练语料中向前或向后扩展得到二元词;
针对该二元词执行所述步骤S2,如果确定该二元词为第i个类型的特征片段,则不针对该二元词进行扩展,否则将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项;
针对该二元组合词项继续执行所述步骤S2。
根据本发明一优选实施例,所述问题集合由包含疑问词的问句和包含需求词的搜索项query中至少一种构成;
所述包含需求词的query被划分至的问题集合类型由搜索日志中该query对应的被点击问句的类型确定。
一种识别问题类型的方法,该方法包括:
A1、从待识别问题中获取包含疑问词或需求词的文本片段;
A2、利用获取的文本片段查找利用上述的方法建立的问题类型识别模型,将在所述问题类型识别模型中匹配到的特征片段所属的类型确定为所述待识别问题的类型。
根据本发明一优选实施例,所述文本片段为一元词、一元词在所述待识别问题中向前或向后扩展得到的二元词、所述二元词在所述待识别问题中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
根据本发明一优选实施例,如果所述步骤A2中在所述问题类型识别模型中匹配到多个特征片段,则按照二元组合词项、二元词、一元词的优先级从高到低的顺序,将匹配到的特征片段中优先级最高的特征片段所属的类型确定为所述待识别问题的类型。
根据本发明一优选实施例,如果所述步骤A2中在所述问题类型识别模型中匹配到多个特征片段,则将匹配到的特征片段中权值最高的特征片段所属的类型确定为所述待识别问题的类型。
一种建立问题类型识别模型的装置,该装置包括:
片段获取单元,用于从训练语料中获取包含疑问词或需求词的文本片段,所述训练语料包含预先划分出类型的问题集合;
类型确定单元,用于判断所述文本片段是否满足预设的条件,如果是,则确定所述文本片段为第i个类型的特征片段,所述条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值;
模型存储单元,用于在所述类型确定单元针对训练语料中获取到的所有文本片段都执行操作后,建立问题类型识别模型,所述问题类型识别模型包括:各类型的特征片段。
根据本发明一优选实施例,所述类型确定单元在确定所述文本片段为第i个类型的特征片段时,采用的所述条件进一步包括:所述文本片段在其他各类型的问题集合中出现的文档频率均低于预设的第二出现频率阈值。
根据本发明一优选实施例,所述问题类型识别模型还包括:特征片段在所属类型中的权值;
所述类型确定单元,还用于根据特征片段在所属类型的问题集合中出现的文档频率与在所有训练语料中出现的文档频率的比值,确定特征片段在对应类型中的权值。
根据本发明一优选实施例,所述文本片段为一元词、一元词在训练语料中向前或向后扩展得到的二元词、所述二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
根据本发明一优选实施例,所述片段获取单元首先获取一元词,该一元词为一元疑问词或一元需求词;如果所述类型确定单元针对该一元词执行操作后,确定该一元词为第i个类型的特征片段,则不针对该一元词进行扩展,否则将该一元词在训练语料中向前或向后扩展得到二元词;如果所述类型确定单元针对该二元词执行操作后,确定该二元词为第i个类型的特征片段,则不针对该二元词进行扩展,否则将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项。
根据本发明一优选实施例,该装置还包括:语料获取单元,用于获取并存储训练语料,所述训练语料中的问题集合由包含疑问词的问句和包含需求词的搜索项query中至少一种构成;
所述包含需求词的query被划分至的问题集合类型由搜索日志中该query对应的被点击问句的类型确定。
一种识别问题类型的装置,该装置包括:
片段识别单元,用于从待识别问题中获取包含疑问词或需求词的文本片段;
类型识别单元,用于利用所述片段识别单元获取的文本片段查找利用上述的装置建立的问题类型识别模型,将在所述问题类型识别模型中匹配到的特征片段所属的类型确定为所述待识别问题的类型。
根据本发明一优选实施例,所述文本片段为一元词、一元词在所述待识别问题中向前或向后扩展得到的二元词、所述二元词在所述待识别问题中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
根据本发明一优选实施例,如果所述类型识别单元在所述问题类型识别模型中匹配到多个特征片段,则按照二元组合词项、二元词、一元词的优先级从高到低的顺序,将匹配到的特征片段中优先级最高的特征片段所属的类型确定为所述待识别问题的类型。
根据本发明一优选实施例,如果所述类型识别单元在所述问题类型识别模型中匹配到多个特征片段,则将匹配到的特征片段中权值最高的特征片段所属的类型确定为所述待识别问题的类型。
由以上技术方案可以看出,本发明在建立问题识别模型的过程中,基于包含疑问词或需求词的文本片段在类别中的绝对出现频率以及相比较其他类别的相对出现频率来确定其是否属于该类别的特征片段,从而能够准确地定位出包含疑问词或需求词的文本片段所属的类型,提高了问题类型的识别准确性。如果基于该方式进行问题类型识别并用于搜索,则能够进一步提高搜索精度。
【附图说明】
图1为本发明实施例一提供的主要方法流程图;
图2为本发明实施例二提供的建立问题类型识别模型的方法流程图;
图3为本发明实施例三提供的建立问题类型识别模型的方法流程图;
图4为本发明实施例四提供的识别问题类型的方法流程图;
图5为本发明实施例五提供的建立问题类型识别模型的装置结构图;
图6为本发明实施例六提供的识别问题类型的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明提供的主要方法流程图,如图1所示,主要包括以下步骤:
步骤101:从训练语料中获取包含疑问词或需求词的文本片段,其中训练语料包含预先划分出类型的问题集合。
其中如果训练语料中问题集合是由包含疑问词的问句构成,则本步骤中获取的文本片段为包含疑问词的文本片段,这种情况建立的模型能够用于对包含疑问词的问题类型识别,具体将在实施例二中描述。如果训练语料中问题集合是由包含需求词的query构成,则在本步骤中获取的文本片段为包含需求词的文本片段,这种情况建立的模型能够用于为包含疑问词的隐含问题类型识别,具体将在实施例三中描述。当然,也可以同时包含上述两种情况。
本步骤中涉及的文本片段可以为一元词、一元词在训练语料中向前或向后扩展得到的二元词、所述二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种,其中所述一元词为一元疑问词或一元需求词。
步骤102:如果文本片段满足预设的条件,则确定该文本片段为第i个类型的特征片段,其中条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值。
另外,上述的条件可以进一步包括:文本片段在其他各类型的问题集合中出现的文本频率均低于预设的第二出现频率阈值。也就是说,条件为:该文本片段在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值,且在其他各类型的问题集合中出现的文本频率均低于预设的第二出现频率阈值,在以下实施例中均以该条件为例进行描述。
其中上述第二出现频率阈值小于第一出现频率阈值。
步骤103:针对训练语料中获取到的所有文本片段都执行步骤102后,建立问题类型识别模型,问题类型识别模型包括:各类型的特征片段。
除此之外,在步骤102中,还可以根据各特征片段在所属类型的问题集合中出现的文档频率与在所有训练语料中出现的文档频率的比值确定出该特征集合在对应类型中的权值,此时,建立的问题类型识别模型包括:各类型的特征片段,以及特征片段在对应类型中的权值。
实施例二、
在该实施例中建立的问题类型识别模型主要针对包含疑问词的问题类型识别,如图2所示,此时对应的建立问题类型识别模型的方法包括以下步骤:
步骤201:利用包含疑问词的问句建立训练语料,这些问句在训练语料中被预先划分出类型。
可以将大量包含疑问词的问句标出出问题类型后,作为训练语料,此处涉及的类型可以是大类,例如:人物、地点、数字、时间、实体、描述(描述包括方法、原因、定义、意义、简写、区别、表达等等)、是非疑问句、选择疑问句、正反疑问句、反诘疑问句等;也可以是小类,例如地点可以进一步细分为:星球、城市、大陆、归家、省、河流、湖泊、山脉、大洋、岛屿、地点列举、地址、建筑等,数字可以进一步细分为:号码、数量、价格、百分比、距离、重量、温度、年龄、面积、频率、速度、范围、顺序、数字列举等等。
步骤202:首先获取训练语料中的一元疑问词并针对该一元疑问词进行统计,逐一针对各一元疑问词从步骤203开始执行:
步骤203:判断该一元疑问词的统计结果是否满足预设的条件,其中条件为:该一元疑问词w在第i个类别中出现的文档频率Ni大于预设的第一出现频率阈值,且r(w)大于预设的比例阈值,且Nx小于预设的第二出现频率阈值,其中r(w)=Ni/Nx,Nx为w在除了第i个类型之外的其他类型x中出现的文档频率,如果是,则确定该一元疑问词为第i个类型的特征片段,执行步骤208;否则,针对该一元疑问词执行步骤204。
将训练语料中每一个问句都当作一个文档,这样一个词出现在多少个问句中就定义为该词的文档频率。
例如,假设从训练语料中获取到如下一元疑问词:“多远”、“哪”、“什么”。假设第一出现频率阈值为50,第二出现频率阈值为10,比例阈值为20,则如果“多远”在距离类别出现的文档频率大于50,在该类别出现的文档频率与其他各类型中出现的文档频率的比值大于20,且在其他各类型中出现的文档频率均小于10,则认为“多远”为距离类别中的特征文本。而“哪”和“什么”不满足上述条件,则认为不是距离类别中的特征文本。
步骤204:对该一元疑问词在训练语料中向前或向后扩展,得到二元词,针对该二元词执行步骤205。
本步骤中对一元疑问词的扩展是向前或向后扩展一个词语,例如,对“哪”进行向前或向后扩展可以得到诸如“去哪”、“哪国”等二元词,对“什么”进行向前或向后扩展可以得到诸如“叫什么”、“什么地方”等二元词。
步骤205:判断该二元词的统计结果是否满足预设的条件,其中条件为:该二元词的Ni大于预设的第一出现频率阈值,且r(w)大于预设的比例阈值,且Nx小于预设的第二出现频率阈值,如果是,确定该二元词为第i个类型的特征片段,执行步骤208,否则,针对该二元词执行步骤206。
其中r(w)和Nx的含义与步骤203中相同,不再赘述。
步骤206:将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项。
本步骤中将二元词在训练语料的问句中向前搜索或向后搜索,如果搜索到名词,则将搜索到的名词与该二元词组合后构成二元组合词项。其中,如果搜索到连续名词则一直搜索到连续的最后一个名词,将搜索到的连续多个名词与该二元词组合构成二元组合词项。
举个例子,二元词“叫什么”进行向前扩展或向后扩展后,可以得到如下二元组合词项:“女孩#叫什么”、“背景音乐#叫什么”、“叫什么#歌名”、“叫什么#名字”等。
步骤207:判断该二元组合词项的统计结果是否满足预设的条件,其中条件为:该二元组合词项的Ni大于预设的第一出现频率阈值,且r(w)大于预设的比例阈值,且Nx小于预设的第二出现频率阈值,如果是,确定该二元组合词项为第i个类型的特征片段,执行步骤208,否则,执行步骤208。
其中r(w)和Nx的含义与步骤203中相同,不再赘述。
在上述步骤203、205和207中,在确定出第i个类型的特征片段时,可以进一步根据该特征片段在第i个类型中出现的文档频率与在所有训练语料中出现的文档频率的比值,确定该特征片段在第i个类型中的权值,该权值体现了该特征片段属于该第i个类型的概率状况。
步骤208:针对训练语料中获取各一元疑问词均执行完从步骤203开始的步骤后,建立问题类型识别模型。
问题类型识别模型包括:各类型的特征片段,还可以进一步包括特征片段在对应类型中的权值。
通过上述过程就能够将在问题类型上具有区分性的特征片段提取出来,上述特征片段覆盖一元词、二元词以及二元组合词项。当然还可以进一步进行扩展,在此不再继续赘述。
另外,在通过上述方式建立问题类型识别模型之后,可以通过上述问题类型识别模型对训练语料进行分类,重新划分出各类型的问题集合作为更新后的训练语料,通过这种迭代的方式逐步优化问题类型识别模型。
实施例三、
该实施例中建立的问题类型识别模型主要针对未包含疑问词的隐含问题进行类型识别,如图3所示,此时对应的建立问题类型识别模型的方法包括以下步骤:
步骤301:利用搜索日志中对应被点击问题的query建立训练语料,这些query在训练语料中依据其对应的被点击问题的类型同样被预先划分出类型。
用户在进行搜索的过程中,即便有时候输入的query未包含疑问词,但其实却隐含着表达与包含疑问词的问句具有相同的意图。例如,用户输入“姚明的身高”,实际上与“姚明的身高是多少”表达相同的意图。基于此原理,本发明先将query映射到包含疑问词的问句上,来建立训练语料。
例如,可以从搜索日志中首先确定出被点击问句,这些问句在搜索结果中出现,找到这些被点击问句对应的query,也就是说,当用户输入这些query之后,从搜索结果中点击了这些问句。具体地,在问句选择时可以依据被点击次数选取,例如选取某个类别的问句中被点击次数排在前几个的问句对应的query来建立该类别的训练语料。
步骤302:首先获取训练语料中的一元需求词并针对该一元需求词进行统计,逐一针对各一元需求词从步骤303开始执行:
在利用训练语料开始建立问题类型识别模型时,由于训练语料中的各query中是没有疑问词的,但各query中有代表用户需求的需求词,这些需求词往往能够表征问题类型,例如“姚明的身高”中的需求词“身高”类此于疑问词的角色,因此本步骤中首先获取一元需求词。
获取query中的一元需求词是基于预先得到的需求词词表进行的,该需求词词表是预先基于统计得到的符合预设需求词规则的高频词。由于通常需求词通常出现在query的最后,且常常会和一些实体词组合使用,例如“诺基亚价格”中“价格”是需求词;或者,出现在query的最后,且出现在偏正结构中作为中心词,例如“姚明的身高”中“身高”是需求词,因此,可以基于此来设置需求词抽取模板,在大规模语料query语料中进行统计,选取符合抽取模板且频率大约一定阈值的词作为需求词候选,并对其进行筛选,主要去除那些在query中独立搜索的部分,最后获取需求词词表。
步骤303至步骤308的执行过程与实施例二中步骤203至步骤208的执行过程类似,只是将实施例二中的一元疑问词替换为一元需求词,在此不再赘述。
通过以上实施例完成了问题类型识别模型的建立,下面通过实施例四对基于建立的问题类型识别模型进行问题识别的方法进行描述。
实施例四、
图4为本发明实施例四提供的识别问题类型的方法流程图,如图4所示,该方法可以包括以下步骤:
步骤401:从待识别问题中获取包含疑问词或需求词的文本片段。
如果待识别问题中包含疑问词,则获取包含疑问词的文本片段,如果待识别问题中未包含疑问词,则获取包含需求词的文本片段。其中疑问词和需求词的获取均可以通过预先设置的词表实现,其中需求词的获取方式与实施例三中步骤302中的描述相同,不再赘述。
此处的文本片段可以为一元词、一元词在该待识别问题中向前或向后扩展得到的二元词、该二元词在该待识别问题中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种。其中一元词可以为一元疑问词或一元需求词。扩展方式与实施例二和实施例三中在训练语料中的扩展方式相同,在此不再赘述。
步骤402:利用获取的文本片段查找问题类型识别模型,将在问题类型识别模型中匹配到的特征片段所属的类型确定为待识别问题的类型。
如果获取包含疑问词的文本片段,则查找的是通过实施例二所示方式建立的问题类型识别模型,如果获取包含需求词的文本片段,则查找的是通过实施例三所示方式建立的问题类型识别模型。
由于获取的文本片段可能是一元词、二元词或二元组合词项,因此,可能会存在在问题类型识别模型中匹配到多个特征片段的情况,如果匹配到多个特征片段,则按照二元组合词项、二元词、一元词优先级从高到低的顺序,确定问题类别。例如,如果二元组合词项匹配到了特征片段,则优先采用二元组合词项匹配到的特征片段所属的类型。
也可以依据匹配到的特征片段的权值,采用权值高的特征片段所属的类型。特别是对于同一优先级的文本片段匹配到多个特征片段的情况,例如,待识别问题中存在两个二元词都匹配到了特征片段,诸如:待识别问题“人大西门喝粥的叫什么地方”,获取的二元词“叫什么”和“什么地方”都在问题类型识别模型中匹配到的特征片段,则可以采用权值较高的特征片段所属的类型。
以上是对本发明所提供方法进行的描述,下面对本发明所提供的装置进行详细描述。
实施例五、
图5为本发明实施例五提供的建立问题类型识别模型的装置结构图,如图5所示,该装置可以包括:片段获取单元500、类型确定单元510和模型存储单元520。
片段获取单元500从训练语料中获取包含疑问词或需求词的文本片段,训练语料包含预先划分出类型的问题集合。
类型确定单元510判断文本片段是否满足预设的条件,如果是,则确定文本片段为第i个类型的特征片段,条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值。
另外,类型确定单元510在确定文本片段为第i个类型的特征片段时,采用的条件进一步包括:文本片段在其他各类型的问题集合中出现的文档频率均低于预设的第二出现频率阈值。
其中上述第二出现频率阈值小于第一出现频率阈值。
模型存储单元520在类型确定单元510针对训练语料中获取到的所有文本片段都执行操作后,建立问题类型识别模型,问题类型识别模型包括:各类型的特征片段。
优选地,类型确定单元510还可以根据特征片段在所属类型的问题集合中出现的文档频率与在所有训练语料中出现的文档频率的比值,确定特征片段在对应类型中的权值。此时,问题类型识别模型还包括:特征片段在所属类型中的权值。
上述的文本片段可以为一元词、一元词在训练语料中向前或向后扩展得到的二元词、二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种。其中一元词为一元疑问词或一元需求词。
作为一种优选的实施方式,片段获取单元500可以首先获取一元词,该一元词为一元疑问词或一元需求词;如果类型确定单元510针对该一元词执行操作后,确定该一元词为第i个类型的特征片段,则不针对该一元词进行扩展,否则将该一元词在训练语料中向前或向后扩展得到二元词;如果类型确定单元510针对该二元词执行操作后,确定该二元词为第i个类型的特征片段,则不针对该二元词进行扩展,否则将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项。
更进一步地,该装置还可以包括:语料获取单元530,用于获取并存储训练语料,训练语料中的问题集合由包含疑问词的问句和包含需求词的搜索项query中至少一种构成。
包含需求词的query被划分至的问题集合类型由搜索日志中该query对应的被点击问句的类型确定,也就是说,先将query映射到包含疑问词的问句上,来建立训练语料。可以从搜索日志中首先确定出被点击问句,这些问句在搜索结果中出现,找到这些被点击问句对应的query。具体地,在问句选择时可以依据被点击次数选取,例如选取某个类别的问句中被点击次数排在前几个的问句对应的query来建立该类别的训练语料。
实施例六、
图6为本发明实施例六提供的识别问题类型的装置结构图,如图6所示,该装置包括:片段识别单元600和类型识别单元610。
片段识别单元600从待识别问题中获取包含疑问词或需求词的文本片段。
如果待识别问题中包含疑问词,则获取包含疑问词的文本片段,如果待识别问题中未包含疑问词,则获取包含需求词的文本片段。
此处的文本片段可以为一元词、一元词在该待识别问题中向前或向后扩展得到的二元词、该二元词在该待识别问题中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种。其中一元词可以为一元疑问词或一元需求词。
类型识别单元610利用片段识别单元获取的文本片段查找问题类型识别模型,将在问题类型识别模型中匹配到的特征片段所属的类型确定为待识别问题的类型。
如果类型识别单元610在问题类型识别模型中匹配到多个特征片段,则按照二元组合词项、二元词、一元词的优先级从高到低的顺序,将匹配到的特征片段中优先级最高的特征片段所属的类型确定为待识别问题的类型。
和/或,如果类型识别单元610在问题类型识别模型中匹配到多个特征片段,则将匹配到的特征片段中权值最高的特征片段所属的类型确定为待识别问题的类型。
在网络搜索领域,可以采用上述问题类型识别的方法和装置对用户输入的query进行识别,在确定出query所属的问题类型后,更有针对性的向用户返回搜索结果。例如,将搜索结果中包含query所属的问题类型的属性的页面的排序提前,或者,基于确定出的问题类型实现垂直搜索并返回垂直搜索结果,等等。
由以上描述可以看出,本发明提供的方法和装置具备以下优点:
1)本发明在建立问题识别模型的过程中,基于包含疑问词或需求词的文本片段在类别中的绝对出现频率以及相比较其他类别的相对出现频率来确定其是否属于该类别的特征片段,从而能够准确地定位出包含疑问词或需求词的文本片段所属的类型,提高了问题类型的识别准确性。如果基于该方式进行问题类型识别并用于搜索,则能够进一步提高搜索精度。
2)本发明提供的文本片段可以包括一元词、一元词在训练语料中向前或向后扩展得到的二元词、所述二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项,这种方式使得疑问词或需求词在具体上下文语境中能够准确地定位出其所属的问题类型,更进一步提高了识别准确性。
3)本发明不仅能够针对包含疑问词的问句进行问题类型的识别,还能够对未包含疑问词的问句进行问题类型的识别,从而为理解用户需求和用户提供有效的手段。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种建立问题类型识别模型的方法,其特征在于,该方法包括:
S1、从训练语料中获取包含疑问词或需求词的文本片段,所述训练语料包含预先划分出类型的问题集合;
S2、如果所述文本片段满足预设的条件,则确定所述文本片段为第i个类型的特征片段,所述条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值;
S3、针对训练语料中获取到的所有文本片段都执行所述步骤S2后,建立问题类型识别模型,所述问题类型识别模型包括:各类型的特征片段。
2.根据权利要求1所述的方法,其特征在于,在确定所述文本片段为第i个类型的特征片段时,所述条件进一步包括:所述文本片段在其他各类型的问题集合中出现的文档频率均低于预设的第二出现频率阈值。
3.根据权利要求1所述的方法,其特征在于,所述问题类型识别模型还包括:特征片段在所属类型中的权值;
特征片段在对应类型中的权值由特征片段在所属类型的问题集合中出现的文档频率与在所有训练语料中出现的文档频率的比值确定。
4.根据权利要求1所述的方法,其特征在于,所述文本片段为一元词、一元词在训练语料中向前或向后扩展得到的二元词、所述二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
5.根据权利要求4所述的方法,其特征在于,在所述S1中获取一元词,该一元词为一元疑问词或一元需求词;
针对该一元词执行所述步骤S2,如果确定该一元词为第i个类型的特征片段,则不针对该一元词进行扩展,否则将该一元词在训练语料中向前或向后扩展得到二元词;
针对该二元词执行所述步骤S2,如果确定该二元词为第i个类型的特征片段,则不针对该二元词进行扩展,否则将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项;
针对该二元组合词项继续执行所述步骤S2。
6.根据权利要求1所述的方法,其特征在于,所述问题集合由包含疑问词的问句和包含需求词的搜索项query中至少一种构成;
所述包含需求词的query被划分至的问题集合类型由搜索日志中该query对应的被点击问句的类型确定。
7.一种识别问题类型的方法,其特征在于,该方法包括:
A1、从待识别问题中获取包含疑问词或需求词的文本片段;
A2、利用获取的文本片段查找利用权利要求1至6任一权项所述的方法建立的问题类型识别模型,将在所述问题类型识别模型中匹配到的特征片段所属的类型确定为所述待识别问题的类型。
8.根据权利要求7所述的识别问题类型的方法,其特征在于,所述文本片段为一元词、一元词在所述待识别问题中向前或向后扩展得到的二元词、所述二元词在所述待识别问题中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
9.根据权利要求8所述的识别问题类型的方法,其特征在于,如果所述步骤A2中在所述问题类型识别模型中匹配到多个特征片段,则按照二元组合词项、二元词、一元词的优先级从高到低的顺序,将匹配到的特征片段中优先级最高的特征片段所属的类型确定为所述待识别问题的类型。
10.根据权利要求7所述的识别问题类型的方法,其特征在于,当采用权利要求3所述的方法建立的问题类型识别模型时,如果所述步骤A2中在所述问题类型识别模型中匹配到多个特征片段,则将匹配到的特征片段中权值最高的特征片段所属的类型确定为所述待识别问题的类型。
11.一种建立问题类型识别模型的装置,其特征在于,该装置包括:
片段获取单元,用于从训练语料中获取包含疑问词或需求词的文本片段,所述训练语料包含预先划分出类型的问题集合;
类型确定单元,用于判断所述文本片段是否满足预设的条件,如果是,则确定所述文本片段为第i个类型的特征片段,所述条件为在第i个类型的问题集合中出现的文档频率大于预设的第一出现频率阈值,且在第i个类型的问题集合中出现的文档频率与其他各类型的问题集合中出现的文档频率的比值均大于预设的比例阈值;
模型存储单元,用于在所述类型确定单元针对训练语料中获取到的所有文本片段都执行操作后,建立问题类型识别模型,所述问题类型识别模型包括:各类型的特征片段。
12.根据权利要求11所述的装置,其特征在于,所述类型确定单元在确定所述文本片段为第i个类型的特征片段时,采用的所述条件进一步包括:所述文本片段在其他各类型的问题集合中出现的文档频率均低于预设的第二出现频率阈值。
13.根据权利要求11所述的装置,其特征在于,所述问题类型识别模型还包括:特征片段在所属类型中的权值;
所述类型确定单元,还用于根据特征片段在所属类型的问题集合中出现的文档频率与在所有训练语料中出现的文档频率的比值,确定特征片段在对应类型中的权值。
14.根据权利要求11所述的装置,其特征在于,所述文本片段为一元词、一元词在训练语料中向前或向后扩展得到的二元词、所述二元词在训练语料中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
15.根据权利要求14所述的装置,其特征在于,所述片段获取单元首先获取一元词,该一元词为一元疑问词或一元需求词;如果所述类型确定单元针对该一元词执行操作后,确定该一元词为第i个类型的特征片段,则不针对该一元词进行扩展,否则将该一元词在训练语料中向前或向后扩展得到二元词;如果所述类型确定单元针对该二元词执行操作后,确定该二元词为第i个类型的特征片段,则不针对该二元词进行扩展,否则将该二元词在训练语料中进行向前名词扩展或向后名词扩展得到二元组合词项。
16.根据权利要求11所述的装置,其特征在于,该装置还包括:语料获取单元,用于获取并存储训练语料,所述训练语料中的问题集合由包含疑问词的问句和包含需求词的搜索项query中至少一种构成;
所述包含需求词的query被划分至的问题集合类型由搜索日志中该query对应的被点击问句的类型确定。
17.一种识别问题类型的装置,其特征在于,该装置包括:
片段识别单元,用于从待识别问题中获取包含疑问词或需求词的文本片段;
类型识别单元,用于利用所述片段识别单元获取的文本片段查找利用权利要求11至16任一权项所述的装置建立的问题类型识别模型,将在所述问题类型识别模型中匹配到的特征片段所属的类型确定为所述待识别问题的类型。
18.根据权利要求17所述的识别问题类型的装置,其特征在于,所述文本片段为一元词、一元词在所述待识别问题中向前或向后扩展得到的二元词、所述二元词在所述待识别问题中进行向前名词扩展或向后名词扩展得到的二元组合词项中的至少一种;
其中所述一元词为一元疑问词或一元需求词。
19.根据权利要求18所述的识别问题类型的装置,其特征在于,如果所述类型识别单元在所述问题类型识别模型中匹配到多个特征片段,则按照二元组合词项、二元词、一元词的优先级从高到低的顺序,将匹配到的特征片段中优先级最高的特征片段所属的类型确定为所述待识别问题的类型。
20.根据权利要求17所述的识别问题类型的装置,其特征在于,当采用权利要求13所述的装置建立的问题类型识别模型时,如果所述类型识别单元在所述问题类型识别模型中匹配到多个特征片段,则将匹配到的特征片段中权值最高的特征片段所属的类型确定为所述待识别问题的类型。
CN201210123534.4A 2012-04-24 2012-04-24 识别问题类型的方法及装置、建立识别模型的方法及装置 Active CN103377224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210123534.4A CN103377224B (zh) 2012-04-24 2012-04-24 识别问题类型的方法及装置、建立识别模型的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210123534.4A CN103377224B (zh) 2012-04-24 2012-04-24 识别问题类型的方法及装置、建立识别模型的方法及装置

Publications (2)

Publication Number Publication Date
CN103377224A true CN103377224A (zh) 2013-10-30
CN103377224B CN103377224B (zh) 2016-08-17

Family

ID=49462350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210123534.4A Active CN103377224B (zh) 2012-04-24 2012-04-24 识别问题类型的方法及装置、建立识别模型的方法及装置

Country Status (1)

Country Link
CN (1) CN103377224B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634146A (zh) * 2013-11-27 2014-03-12 华为技术有限公司 一种网络数据处理方法及装置
CN105893465A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 自动问答方法和装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN110908663A (zh) * 2018-09-18 2020-03-24 北京京东尚科信息技术有限公司 业务问题的定位方法和定位装置
CN111159015A (zh) * 2019-12-13 2020-05-15 华为技术有限公司 定位问题的方法和装置
CN111767366A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 问答资源挖掘方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
CN101118554A (zh) * 2007-09-14 2008-02-06 中兴通讯股份有限公司 智能交互式问答系统及其处理方法
CN101320374A (zh) * 2008-07-10 2008-12-10 昆明理工大学 结合句法结构关系和领域特征的领域问题分类方法
CN101441663A (zh) * 2008-12-02 2009-05-27 西安交通大学 一种基于lzw压缩算法的中文文本分类特征词典生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DELL ZHANG等: "Question classification using support cector machines", 《PROCEEDINGS OF THE 26TH ANNUAL INTERNATIONAL ACM SIGIR CONFERENCE ON SEARCH AND DEVELOPMENT IN INFORMATION RETRIEVAL》 *
文勖等: "基于句法结构分析的中文问题分类", 《中文信息学报》 *
王培涌等: "一种改进的中文文本特征选择方法", 《研究与开发》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634146A (zh) * 2013-11-27 2014-03-12 华为技术有限公司 一种网络数据处理方法及装置
CN105893465A (zh) * 2016-03-28 2016-08-24 北京京东尚科信息技术有限公司 自动问答方法和装置
CN105893465B (zh) * 2016-03-28 2019-12-27 北京京东尚科信息技术有限公司 自动问答方法和装置
CN106682192A (zh) * 2016-12-29 2017-05-17 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN106682192B (zh) * 2016-12-29 2020-07-03 北京奇虎科技有限公司 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN110908663A (zh) * 2018-09-18 2020-03-24 北京京东尚科信息技术有限公司 业务问题的定位方法和定位装置
CN111767366A (zh) * 2019-04-01 2020-10-13 北京百度网讯科技有限公司 问答资源挖掘方法、装置、计算机设备及存储介质
CN111767366B (zh) * 2019-04-01 2023-07-14 北京百度网讯科技有限公司 问答资源挖掘方法、装置、计算机设备及存储介质
CN111159015A (zh) * 2019-12-13 2020-05-15 华为技术有限公司 定位问题的方法和装置

Also Published As

Publication number Publication date
CN103377224B (zh) 2016-08-17

Similar Documents

Publication Publication Date Title
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
CN111488426B (zh) 一种查询意图确定方法、装置及处理设备
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN106156204B (zh) 文本标签的提取方法和装置
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN102567304B (zh) 一种网络不良信息的过滤方法及装置
CN110888991B (zh) 一种弱标注环境下的分段式语义标注方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN102831177B (zh) 语句纠错方法及其系统
CN106537370A (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
CN101685455A (zh) 数据检索的方法和系统
CN103377224A (zh) 识别问题类型的方法及装置、建立识别模型的方法及装置
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN102135967A (zh) 网页关键词提取方法、装置及系统
CN106708929B (zh) 视频节目的搜索方法和装置
CN102867511A (zh) 自然语音识别方法和装置
CN112836487B (zh) 一种自动评论方法、装置、计算机设备及存储介质
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN103970748A (zh) 一种相关关键词推荐方法和装置
CN108038099B (zh) 基于词聚类的低频关键词识别方法
CN103678422A (zh) 网页分类方法和装置、网页分类器的训练方法和装置
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN103778206A (zh) 一种网络服务资源的提供方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant