CN104503998A - 针对用户查询句的类型识别方法及装置 - Google Patents
针对用户查询句的类型识别方法及装置 Download PDFInfo
- Publication number
- CN104503998A CN104503998A CN201410742367.0A CN201410742367A CN104503998A CN 104503998 A CN104503998 A CN 104503998A CN 201410742367 A CN201410742367 A CN 201410742367A CN 104503998 A CN104503998 A CN 104503998A
- Authority
- CN
- China
- Prior art keywords
- sentence
- user
- type
- feature
- inquires
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本发明实施例公开了一种针对用户查询句的类型识别方法及装置,其中所述方法包括:获取用户查询句;对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。本发明实施例提供的技术方案能够对用户输入的具有任意性的中文查询句进行问题判定及问题类型的识别,以便后续搜索引擎据此进行相关资源的搜索,从而提高搜索结果的准确度,满足用户对问答类查询句的搜索需求。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种针对用户查询句的类型识别方法及装置。
背景技术
传统的搜索引擎在获取到用户输入的查询句后,通常是基于词袋的匹配方法在资源库中查找与查询句相关联的资源信息,作为搜索结果。但是,搜索引擎中的问答类查询句需求往往与普通的搜索需求不同,用户想要获取的是问题的答案,而非与问题本身相关的信息,因此对于问答类查询句的搜索结果而言,其准确率很低,无法满足用户对问答类查询句的搜索需求。
在现有技术中,watson(沃森)系统提供了一种专门针对问题类型的查询句的搜索系统,该系统要求用户输入的查询句的类型必须是问题类型,之后从查询句中直接提取出一个答案的定型词,来表示答案的类型,进而根据答案类型提取结果和查询句进行相关资源的搜索。并且,watson系统仅适用于英文问答类搜索。
虽然watson系统的搜索结果在一定程度上满足了用户需求,但是该系统对用户输入的查询句有着严格的要求,存在一定的局限性,无法适用于对用户输入的具有任意性的中文查询句的搜索。
发明内容
本发明实施例提供一种针对用户查询句的类型识别方法及装置,以能够对用户输入的具有任意性的中文查询句进行问题判定及问题类型的识别,以便后续搜索引擎据此进行相关资源的搜索,从而提高搜索结果的准确度,满足用户对问答类查询句的搜索需求。
第一方面,本发明实施例提供了一种针对用户查询句的类型识别方法,该方法包括:
获取用户查询句;
对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;
在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。
第二方面,本发明实施例还提供了一种针对用户查询句的类型识别装置,该装置包括:
用户查询句获取单元,用于获取用户查询句;
用户查询句类型判定单元,用于对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;
问题类型识别单元,用于在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。
本发明实施例提供的技术方案,在获取到用户查询句之后,首先判断该用户查询句是否为问题类查询句,并在是的情况下识别用户查询句所属的问题类型。因此,本发明实施例能够对用户输入的具有任意性的中文查询句进行问题判定及问题类型的识别,以便后续搜索引擎据此进行相关资源的搜索,从而可以提高搜索结果的准确度,满足用户对问答类查询句的搜索需求。
附图说明
图1是本发明实施例一提供的一种针对用户查询句的类型识别方法的流程示意图;
图2是本发明实施例二提供的一种针对用户查询句的类型识别方法的流程示意图;
图3是本发明实施例三提供的一种针对用户查询句的类型识别方法的流程示意图;
图4是本发明实施例四提供的一种针对用户查询句的类型识别方法的流程示意图;
图5是本发明实施例五提供的一种针对用户查询句的类型识别装置的结构示意图;
图6是本发明实施例六提供的一种针对用户查询句的类型识别装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的一种针对用户查询句的类型识别方法的流程示意图,该方法可以由针对用户查询句的类型识别装置来执行,所述装置可由软件和/或硬件实现。参见图1,本实施例提供的针对用户查询句的类型识别方法具体包括如下操作:
操作110、获取用户查询句。
操作120、对用户查询句进行类型判定,以确定用户查询句是否为问题类查询句。
操作130、在确定用户查询句是问题类查询句时,识别用户查询句所属的问题类型。
在本实施例中,用户查询句可为对用户在搜索引擎提供的搜索栏中输入的文本信息进行处理得到的句子。其中,所述处理可包括:字符纠错、去除预设的无用字符(例如去除标点符号)、大小写转换等。
现有技术提供的方案,在获取到用户查询句后,通常是对该查询句进行诸如分词省略、分词同义词扩展等之类的处理,得到搜索语句;然后在资源库中查找与搜索语句中的各分词相似度较高的资源信息,作为搜索结果。但是,用户对问答类的用户查询句的搜索需求往往与其他类别的用户查询句的搜索需求不同。对于问答类的用户查询句而言,用户想要获取的是用户查询句中所包含的问题的答案,而非与问题本身相关的信息。
为此,本实施例在获取到用户查询句后,对该用户查询句进行一个类型识别的过程,通过该类型识别过程,来确定用户查询句是否为问题类查询句以及用户查询句所属的问题类型,进而使得搜索引擎可同时结合类型识别结果与传统的匹配算法(例如基于词袋的匹配算法),在资源库中查找相应的资源信息作为搜索结果。特别是,在用户查询句为问题类查询句的情况下,搜索引擎可根据类型识别结果与传统的匹配算法,在资源库中查找与用户查询句关联度较高的且与问题类型对应的答案信息,作为搜索结果,从而大大提升了用户的搜索体验,提高了搜索结果的准确度。
在本发明实施例中,在获取到用户查询句之后,在对用户查询句进行类型判定之前,可对该查询句进行基础词法分析,该分析包括:切词、词性标注、专名识别以及句法分析等。其中句法分析指的是对该查询句中各分词之间的依存关系的解析。对用户查询句进行类型的判定,以及对用户查询句所属的问题类型的识别,可通过采用机器学习算法学习得到的分类器来实现。
本实施例提供的技术方案,在获取到用户查询句之后,首先判断该用户查询句是否为问题类查询句,并在是的情况下识别用户查询句所属的问题类型。因此,本实施例能够对用户输入的具有任意性的中文查询句进行问题判定及问题类型的识别,以便后续搜索引擎据此进行相关资源的搜索,从而可以提高搜索结果的准确度,满足用户对问答类查询句的搜索需求。
实施例二
图2是本发明实施例二提供的一种针对用户查询句的类型识别方法的流程示意图。本实施例在上述实施例一的基础上,进一步优化对用户查询句进行类型判定的操作。参见图2,本实施例提供的方法具体包括如下操作:
操作210、获取用户查询句。
操作220、确定用户查询句在预设的多个第一特征下的特征值。
操作230、将确定的特征值作为预先生成的问题判定分类器的输入,基于问题判定分类器来判断用户查询句是否为问题类查询句。
在本实施例中,各式各样的用户查询句的类型可被划分为多种类型,例如问题类型、知识查找类型、视频下载类型、图片下载类型等。在获取到用户查询句之后,需对该用户查询句的类型加以判定,以确定该用户查询句是不是问题,也即确定该用户查询句是否为问题类查询句。为此,可预先根据机器学习算法,对大量的附有人工标注信息的用户查询句样本在预设的多个第一特征下的特征值进行训练,得到一个问题判定分类器。对于任意用户查询句样本,其对应的人工标注信息为由人工标注的用于标识该样本是否属于问题的信息。该问题判定分类器的输入是用户查询句在预设的多个第一特征下的特征值,输出是该用户查询句的是否为问题,若是问题,则可判定该用户查询句是问题类查询句。
其中,预设的多个第一特征包括正例特征和/或反例特征,所述正例特征为用于表征任意查询句属于问题类查询句的特征,所述反例特征为用于表征任意查询句不属于问题类查询句的特征。如果用户查询句越接近于是问题类查询句,则其在正例特征下的特征值就会越大,在反例特征下的特征值就会越小。
在本实施例的一种优选的实施方式中,所述正例特征包括:用于表征任意查询句属于问题类查询句的疑问词特征;
所述反例特征包括:用于表征任意查询句不属于问题类查询句的百科需求词特征、图片需求词特征、视频需求词特征和工具需求词特征中的至少一种。
示例性的,用户查询句在疑问词特征下的特征值可定义为:如果所述用户查询句包含该疑问词,则在疑问词特征下的特征值为1,否则为0;用户查询句在百科需求词特征、图片需求词特征、视频需求词特征或工具需求词特征下的特征值可定义为:如果所述用户查询句包含该百科需求词、图片需求词、视频需求词或工具需求词,则在该需求词特征下的特征值为-1,否则为0。
操作240、在判断用户查询句是问题类查询句时,识别用户查询句所属的问题类型。
本实施例提供的技术方案,预先根据机器学习算法,对大量的附有人工标注信息的用户查询句样本在预设的多个第一特征下的特征值进行训练,得到一个问题判定分类器,从而使得在获取到用户查询句之后,能够基于该分类器准确的判断出该用户查询句是否为问题类查询句。
实施例三
图3是本发明实施例三提供的一种针对用户查询句的类型识别方法的流程示意图。本实施例在上述实施例一和实施例二的基础上,进一步优化识别用户查询句所属的问题类型的操作。参见图3,本实施例提供的方法具体包括如下操作:
操作310、获取用户查询句。
操作320、对用户查询句进行类型判定,以确定用户查询句是否为问题类查询句。
操作330、在用户查询句为问题类查询句时,确定用户查询句在预设的多个第二特征下的特征值。
操作340、将确定的特征值作为预先生成的问题类型分类器的输入,基于问题类型分类器来识别用户查询句在预设的多个问题类型中所属的问题类型。
在本实施例中,在确定用户查询句为问题类查询句时,需进一步判定该用户查询句所属的问题类型,即该用户查询语句具体是属于各式各样的问题中的哪种类型的问题,以便搜索引擎能够更好的根据所判定的问题类型准确定位搜索结果。为此,依然可采用与实施例二中构建问题判定分类器的思想,预先根据机器学习算法,对大量的附有人工标注信息的用户查询句样本在预设的多个第二特征下的特征值进行训练,得到一个问题类型分类器。对于任意用户查询句样本,其对应的人工标注信息为由人工标注的用于标识该样本具体属于预设的多个问题类型中的哪种问题类型的信息。该问题判定分类器的输入是用户查询句在预设的多个第二特征下的特征值,输出是该用户查询句所属的问题类型。实际上,实施例二中所得到的问题判定分类器为一个二元分类器,而本实施例中得到的问题类型分类器则为多元分类器。
在本实施例中,预设的多个第二特征为:能够对预设的多个问题类型的分类起到作用的多个特征。在本实施例的一种优选的实施方式中,所述能够对问题类型的分类起到作用的多个特征包括:语法结构特征、语义结构特征、疑问词的类型特征、意图词特征和需求词特征中的至少一种。
示例性的,用户查询句在疑问词的类型特征下的特征值可定义为:如果所述用户查询句包含的疑问词对应于预设的多个问题类型中的第n个类型,则在疑问词的类型特征下的特征值为fn(fn>0),如果用户查询句不包含疑问词,则在疑问词的类型特征下的特征值为0;用户查询句在意图词特征或需求词特征下的特征值可定义为:如果用户查询句包含该意图词或需求词,则在意图词特征或需求词特征下的特征值为1,否则为0。用户查询句在语法结构特征或语义结构特征下的特征值可采用现有技术中任意种用于计算句子的语法结构特征或语义结构的特征算法得到。
示例性的,预设的多个问题类型包括:对象类型、原因类型、方法类型、是非类型和选择类型。
其中,对象类型包含实体属性类、解释类、列表类,如“姚明身高”、“贵阳什么体检公司比较好”、“gdp是什么意思”、“年终会计账务应有哪些处理”这些用户查询语句均属于对象类型。如“外眼角痒是怎么回事”,“为什么进行人力资源管理”这些用户查询语句均属于原因类型。如“眉毛稀少怎么办”、“gps如何设置端口”、“暗影萨满出装”这些用户查询语句均属于方法类型。如“iphone5有送转接头”、“电力机车司机好吗”这些用户查询语句均属于是非类型。“iphone5s和三星note2哪个好”的用户查询语句属于选择类型。
对于包含有疑问词特征的用户查询语句,其疑问词的类型会对问题的分类起到决定性的作用。例如,对于包含有“如何”或者“怎么办”等之类的疑问词的用户查询语句而言,其属于方法类型的问题的概率很大;对于包含有“为什么”、“怎么回事”等之类的疑问词的用户查询语句而言,其属于原因类型的问题的概率很大,等等。
对于不包含有疑问词特征的用户查询语句,如果其包含有需求词特征或意图词特征,则需求词特征、意图词特征、词性也会对问题的分类起到一定的作用。例如,用户查询语句“突击地平线存档”的需求词特征是“存档”,“存档”是一个动词,因此“突击地平线存档”所表达的问题是如何存档,对应的问题类型是方法类型;再例如,“中央财政部部长”的意图词特征是“部长”,“部长”是一个名词,“中央财政部部长”所表达的问题是部长是谁,对应的问题类型是对象类型。
本实施例提供的技术方案,预先根据机器学习算法,对大量的附有人工标注结果的用户查询句样本在预设的多个第二特征下的特征值进行训练,得到一个问题类型分类器,从而使得在用户查询句为问题类查询句时,能够基于该分类器准确的判断出该用户查询句为属于哪种问题类型的问题类查询句。
在上述技术方案的基础上,在识别用户查询句所属的问题类型为是非类型或选择类型之后,还包括:基于用户查询句及用户查询句所属的问题类型,估测用户查询句对应的答案。是非类型和选择类型的用户查询句的答案是和用户查询句相关的,都可以从用户查询句中直接抽取,例如是非类型的用户查询语句“iphone5有送转接头吗”,可估测出答案是“有”或“没有”;选择类型的用户查询语句“iphone5s和三星note2哪个好”,答案是“iphone5s”或“三星note2”;
在识别用户查询句所属的问题类型为所述对象类型之后,还包括:基于设定的多种候选答案类型抽取算法,从用户查询句中抽取多种候选答案类型;根据预先生成的决策树模型和抽取的多种候选答案类型,得到用户查询句对应的最终答案类型。搜索引擎利用该答案类型,可将候选搜索结果中的一些无关条目过滤掉(例如去除候选搜索结果中与该答案类型的适配程度较小的条目),以便能够更好的满足用户对问答类查询句的搜索需求。
示例性的,基于设定的多种候选抽取算法,从用户查询句中抽取多种候选答案类型,包括:
抽取用户查询句中的疑问词作为第一候选答案类型;
抽取用户查询句中与疑问词距离最近的名词,作为第二候选答案类型;
获取用户查询句的语法依存树,抽取获取的语法依存树中与疑问词有依存关系的名词,作为第三候选答案类型;
抽取用户查询句中的意图词作为第四候选答案类型。
在本实施例中,依然可以根据机器学习的算法,对大量的附有人工标注信息的用户查询句样本的第一候选答案类型、第二候选答案类型第三候选答案类型以及第四候选答案类型进行训练,得到一个决策树模型。决策树模型的输入是用户查询句对应的第一候选答案类型、第二候选答案类型、第三候选答案类型以及第四候选答案类型,输出是用户查询句对应的最终答案类型。所述人工标注信息为由人工标注的用于标识该样本对应的最终答案类型的信息。
相较于根据单个的候选答案类型抽取算法从用户查询句中抽取答案类型的方案,上述技术方案通过对多个候选答案类型进行融合能够得到准确度较高的答案类型。
实施例四
图4是本发明实施例四提供的一种针对用户查询句的类型识别方法的流程示意图。本实施例在上述实施例一、实施例二和实施例三的基础上,增加了问题语义表示的操作。参见图4,本实施例提供的方法具体包括如下操作:
操作410、获取用户查询句。
操作420、对用户查询句进行类型判定,以确定用户查询句是否为问题类查询句。
操作430、在确定用户查询句是问题类查询句时,识别用户查询句所属的问题类型。
操作440、生成用户查询句的问题语义表示信息。
本实施例在确定用户查询句是问题类查询句时,除了进一步识别用户查询句所属的问题类型之外,还可根据用户查询语句的特点进一步生成问题语义表示信息。需要说明的是,上述操作440和操作430中的“识别用户查询句所属的问题类型”的执行顺序还可互换。示例性的,问题语义表示信息包括:语义角色标注树、主干表示信息、逻辑结构表示信息中的至少一个。
具体的,可通过语义角色标注系统对用户查询句进行语义关系的分析,得到语义角色标注树,以便于搜索引擎可以综合考虑此语义角色标注树中的语义关系以及其他因素来对问题类查询句筛选相应的答案。例如,针对属于对象类型的“任盈盈为令狐冲疗伤的歌曲是什么”的问题类查询句,要分析出“任盈盈”、“令狐冲”和“歌曲”三者之间的语义关系。语义关系着重从语义角度刻画句子的结构信息。所谓语义关系的分析,主要指的是以句子中的核心动词为中心,来识别核心动词,判别核心动词的主语宾语等关键语义角色成分,以及时间,地点等状语成分。
针对一些复杂的且不能简单转化为概念和意图表述的用户查询语句,可提取该用户查询语句中的主干部分,生成主干表示信息。为此,在本实施例的一种具体实施方式中,生成用户查询句的问题语义表示信息,还可进一步包括:如果用户查询句的长度超过预设的目标长度,且提取用户查询句的概念词和意图词失败,则根据用户查询句的语义结构特征以及预设的分词之间的关联关系,对用户查询句进行解析,以确定用户查询句的主干表示信息。
在上述具体实施方式下,用户查询句的语义结构特征即为用户查询语句的语义角色标注树;预设的分词之间的关联关系可以是根据预先存储的知识库学习得到的大量的分词之间的关联关系,其中两个分词的关联关系可以是上下位的关系(如“世界”和“我国”)、也可以是同义词关系(如“高峰”和“山峰”)、同种类下的并列关系(例如“香蕉”和“苹果”)等。对用户查询句进行解析的目的在于提取用户查询句中对答案召回有帮助的至少一个关键词,进而将这些关键词组合得到主干表示信息。
例如,用户查询句“世界第一高峰是我国的什么山峰”,获得的语义结构特征为:“是”为核心动词,主语是“高峰”,宾语是“山峰”,“世界”和“第一”均为主语“高峰”的修饰词,“我国”、“的”、“什么”均为宾语“山峰”的修饰词。根据该语义结构特征,“世界”和“我国”为上下位关系,以及“高峰”和“山峰”为同义词关系,对该用户查询句进行解析,可知该用户查询句所包含的关键词是“我国”、“第一”和“山峰”(或者“高峰”),其余的词都是对这些词的修饰和限定,对答案的召回没有帮助。
在本实施例中,生成用户查询句的问题语义表示信息,还可进一步包括:
对用户查询句的结构进行识别,以判定用户查询句的结构是否为预设的逻辑结构;
在用户查询句的结构是预设的逻辑结构时,生成用户查询句的逻辑结构表示信息。
示例性的,判断用户查询句中是否包含有预设的用于表征逻辑的分词,来对用户查询句的结构进行识别。其中,所述逻辑可以是因果逻辑或者包含逻辑等,用于表征包含逻辑的分词可以是“合称为”、“包括”等,用于表征因果逻辑的分词可以是“理由在于”、“理由是”、“为什么”、“原因”等。根据识别结果、用户查询句的语义结构特征,来生成用户查询句的逻辑结构表示信息。当然,如果用户查询句的结构是预设的包含逻辑结构时,还可进一步结合用户查询句中包含的专名以及专名间的关联关系,来生成用户查询句的逻辑结构表示信息。
例如,针对用户查询句“与刘德华,张学友,郭富城合称为香港四大天王的人是谁”,由于该句中包括“合称为”,则判定该用户查询句的结构为预设的包含逻辑结构,该句中所包含的所有专名包括具有并列关系的各个人名“刘德华”、“张学友”以及“郭富城”,该句的语义结构特征为:“合称为”是核心动词,“谁”是动词的主语,“四大天王”是动词的宾语,“与刘德华,张学友,郭富城”是动词的状语,逻辑结构表示信息可为“刘德华+张学友+郭富城+【X】=四大天王”这种表述形式,以表示答案和“四大天王”是包含关系,和“刘德华”、“张学友”、“郭富城”是并列关系。
再例如,针对用户查询句“为什么会出现月全食”,由于该句中包括“为什么”,则判定该用户查询句的结构为预设的因果逻辑结构。逻辑结构表示信息可为“因为【X】,所以出现月全食”这种表述形式,以表示答案和“出现月全食”是因果关系。
本实施例提供的技术方案,在确定用户查询句为问题类查询句时,能够进一步生成该用户查询句的问题语义表示信息,这样可使得后续搜索引擎据此得到更为准确的搜索答案,更好的满足用户对问答类查询句的搜索需求。
实施例五
图5是本发明实施例五提供的一种针对用户查询句的类型识别装置的结构示意图。参见图5,该装置的具体结构如下:
用户查询句获取单元510,用于获取用户查询句;
用户查询句类型判定单元520,用于对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;
问题类型识别单元530,用于在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。
其中,所述用户查询句类型判定单元520,具体用于:
确定所述用户查询句在预设的多个第一特征下的特征值;其中,所述预设的多个第一特征包括正例特征和/或反例特征,所述正例特征为用于表征任意查询句属于所述问题类查询句的特征,所述反例特征为用于表征任意查询句不属于所述问题类查询句的特征;
将确定的特征值作为预先生成的问题判定分类器的输入,基于所述问题判定分类器来判断所述用户查询句是否为所述问题类查询句。
优选的,所述正例特征包括:用于表征任意查询句属于所述问题类查询句的疑问词特征;
所述反例特征包括:用于表征任意查询句不属于所述问题类查询句的百科需求词特征、图片需求词特征、视频需求词特征和工具需求词特征中的中的至少一种。
其中,所述问题类型识别单元530,具体用于:
确定所述用户查询句在预设的多个第二特征下的特征值;其中,所述预设的多个第二特征为:能够对预设的多个问题类型的分类起到作用的多个特征;
将确定的特征值作为预先生成的问题类型分类器的输入,基于所述问题类型分类器来识别所述用户查询句在预设的多个问题类型中所属的问题类型。
优选的,所述能够对问题类型的分类起到作用的多个特征包括:语法结构特征、语义结构特征、疑问词的类型特征、意图词特征和需求词特征中的至少一种。
优选的,所述预设的多个问题类型包括:对象类型、原因类型、装置类型、是非类型和选择类型。
进一步的,本实施例提供的装置还包括:
答案估测单元540,用于在所述问题类型识别单元530识别所述用户查询句所属的问题类型为所述是非类型或所述选择类型之后,基于所述用户查询句及所述用户查询句所属的问题类型,估测所述用户查询句对应的答案。
进一步的,本实施例提供的装置还包括答案类型确定单元550,用于:
在所述问题类型识别单元530识别所述用户查询句所属的问题类型为所述对象类型之后,基于设定的多种候选答案类型抽取算法,从所述用户查询句中抽取多种候选答案类型;
根据预先生成的决策树模型和抽取的多种候选答案类型,得到所述用户查询句对应的最终答案类型。
上述产品可执行本发明实施例一、实施例二和实施例三所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6是本发明实施例六提供的一种针对用户查询句的类型识别装置的结构示意图。参见图6,该装置的具体结构如下:
用户查询句获取单元610,用于获取用户查询句;
用户查询句类型判定单元620,用于对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;
问题类型识别单元630,用于在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。
进一步的,本实施例提供的装置还包括:
主干表示信息确定单元640,用于在所述用户查询句类型判定单元620确定所述用户查询句是问题类查询句之后,如果所述用户查询句的长度超过预设的目标长度,且提取所述用户查询句的概念词和意图词失败,则根据所述用户查询句的语义结构特征以及预设的分词之间的关联关系,对所述用户查询句进行解析,以确定所述用户查询句的主干表示信息;
进一步的,本实施例提供的装置还包括:
问题语义表示信息生成单元650,用于在所述用户查询句类型判定单元620确定所述用户查询句是问题类查询句之后,生成所述用户查询句的问题语义表示信息,所述问题语义表示信息包括:语义角色标注树、主干表示信息、逻辑结构表示信息中的至少一个。
上述产品可执行本发明实施例一和实施例四所提供的方法所提供的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (18)
1.一种针对用户查询句的类型识别方法,其特征在于,包括:
获取用户查询句;
对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;
在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。
2.根据权利要求1所述的针对用户查询句的类型识别方法,其特征在于,对所述用户查询句进行类型判定,包括:
确定所述用户查询句在预设的多个第一特征下的特征值;其中,所述预设的多个第一特征包括正例特征和/或反例特征,所述正例特征为用于表征任意查询句属于所述问题类查询句的特征,所述反例特征为用于表征任意查询句不属于所述问题类查询句的特征;
将确定的特征值作为预先生成的问题判定分类器的输入,基于所述问题判定分类器来判断所述用户查询句是否为所述问题类查询句。
3.根据权利要求2所述的针对用户查询句的类型识别方法,其特征在于,所述正例特征包括:用于表征任意查询句属于所述问题类查询句的疑问词特征;
所述反例特征包括:用于表征任意查询句不属于所述问题类查询句的百科需求词特征、图片需求词特征、视频需求词特征和工具需求词特征中的中的至少一种。
4.根据权利要求1所述的针对用户查询句的类型识别方法,其特征在于,识别所述用户查询句所属的问题类型,包括:
确定所述用户查询句在预设的多个第二特征下的特征值;其中,所述预设 的多个第二特征为:能够对预设的多个问题类型的分类起到作用的多个特征;
将确定的特征值作为预先生成的问题类型分类器的输入,基于所述问题类型分类器来识别所述用户查询句在预设的多个问题类型中所属的问题类型。
5.根据权利要求4所述的针对用户查询句的类型识别方法,其特征在于,所述能够对问题类型的分类起到作用的多个特征包括:语法结构特征、语义结构特征、疑问词的类型特征、意图词特征和需求词特征中的至少一种。
6.根据权利要求4所述的针对用户查询句的类型识别方法,其特征在于,所述预设的多个问题类型包括:对象类型、原因类型、方法类型、是非类型和选择类型。
7.根据权利要求6所述的针对用户查询句的类型识别方法,其特征在于,在识别所述用户查询句所属的问题类型为所述是非类型或所述选择类型之后,还包括:
基于所述用户查询句及所述用户查询句所属的问题类型,估测所述用户查询句对应的答案。
8.根据权利要求6所述的针对用户查询句的类型识别方法,其特征在于,在识别所述用户查询句所属的问题类型为所述对象类型之后,还包括:
基于设定的多种候选答案类型抽取算法,从所述用户查询句中抽取多种候选答案类型;
根据预先生成的决策树模型和抽取的多种候选答案类型,得到所述用户查询句对应的最终答案类型。
9.根据权利要求1-8中任一项所述的针对用户查询句的类型识别方法,其特征在于,在确定所述用户查询句是问题类查询句之后,还包括:
生成所述用户查询句的问题语义表示信息,所述问题语义表示信息包括:语义角色标注树、主干表示信息、逻辑结构表示信息中的至少一个。
10.一种针对用户查询句的类型识别装置,其特征在于,包括:
用户查询句获取单元,用于获取用户查询句;
用户查询句类型判定单元,用于对所述用户查询句进行类型判定,以确定所述用户查询句是否为问题类查询句;
问题类型识别单元,用于在确定所述用户查询句是问题类查询句时,识别所述用户查询句所属的问题类型。
11.根据权利要求10所述的针对用户查询句的类型识别装置,其特征在于,所述用户查询句类型判定单元,具体用于:
确定所述用户查询句在预设的多个第一特征下的特征值;其中,所述预设的多个第一特征包括正例特征和/或反例特征,所述正例特征为用于表征任意查询句属于所述问题类查询句的特征,所述反例特征为用于表征任意查询句不属于所述问题类查询句的特征;
将确定的特征值作为预先生成的问题判定分类器的输入,基于所述问题判定分类器来判断所述用户查询句是否为所述问题类查询句。
12.根据权利要求11所述的针对用户查询句的类型识别装置,其特征在于,所述正例特征包括:用于表征任意查询句属于所述问题类查询句的疑问词特征;
所述反例特征包括:用于表征任意查询句不属于所述问题类查询句的百科需求词特征、图片需求词特征、视频需求词特征和工具需求词特征中的中的至少一种。
13.根据权利要求10所述的针对用户查询句的类型识别装置,其特征在于, 所述问题类型识别单元,具体用于:
确定所述用户查询句在预设的多个第二特征下的特征值;其中,所述预设的多个第二特征为:能够对预设的多个问题类型的分类起到作用的多个特征;
将确定的特征值作为预先生成的问题类型分类器的输入,基于所述问题类型分类器来识别所述用户查询句在预设的多个问题类型中所属的问题类型。
14.根据权利要求13所述的针对用户查询句的类型识别装置,其特征在于,所述能够对问题类型的分类起到作用的多个特征包括:语法结构特征、语义结构特征、疑问词的类型特征、意图词特征和需求词特征中的至少一种。
15.根据权利要求13所述的针对用户查询句的类型识别装置,其特征在于,所述预设的多个问题类型包括:对象类型、原因类型、装置类型、是非类型和选择类型。
16.根据权利要求15所述的针对用户查询句的类型识别装置,其特征在于,还包括:
答案估测单元,用于在所述问题类型识别单元识别所述用户查询句所属的问题类型为所述是非类型或所述选择类型之后,基于所述用户查询句及所述用户查询句所属的问题类型,估测所述用户查询句对应的答案。
17.根据权利要求15所述的针对用户查询句的类型识别装置,其特征在于,还包括答案类型确定单元,用于:
在所述问题类型识别单元识别所述用户查询句所属的问题类型为所述对象类型之后,基于设定的多种候选答案类型抽取算法,从所述用户查询句中抽取多种候选答案类型;
根据预先生成的决策树模型和抽取的多种候选答案类型,得到所述用户查 询句对应的最终答案类型。
18.根据权利要求10-17中任一项所述的针对用户查询句的类型识别装置,其特征在于,还包括:
问题语义表示信息生成单元,用于在所述用户查询句类型判定单元确定所述用户查询句是问题类查询句之后,生成所述用户查询句的问题语义表示信息,所述问题语义表示信息包括:语义角色标注树、主干表示信息、逻辑结构表示信息中的至少一个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410742367.0A CN104503998B (zh) | 2014-12-05 | 2014-12-05 | 针对用户查询句的类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410742367.0A CN104503998B (zh) | 2014-12-05 | 2014-12-05 | 针对用户查询句的类型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104503998A true CN104503998A (zh) | 2015-04-08 |
CN104503998B CN104503998B (zh) | 2018-11-20 |
Family
ID=52945396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410742367.0A Active CN104503998B (zh) | 2014-12-05 | 2014-12-05 | 针对用户查询句的类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104503998B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547785A (zh) * | 2015-09-22 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 知识库中信息获取方法和系统 |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN106776659A (zh) * | 2015-11-25 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 基于景点成分识别的检索结果排序方法、装置、用户终端 |
CN106815461A (zh) * | 2015-12-02 | 2017-06-09 | 松下知识产权经营株式会社 | 控制方法以及控制装置 |
CN107016135A (zh) * | 2017-06-09 | 2017-08-04 | 海南大学 | 一种面向非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略 |
CN107256227A (zh) * | 2017-04-28 | 2017-10-17 | 北京神州泰岳软件股份有限公司 | 面向知识内容的语义概念扩展生成方法与装置 |
CN108959552A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 问答类查询语句的识别方法、装置、设备及存储介质 |
WO2018227930A1 (zh) * | 2017-06-15 | 2018-12-20 | 百度在线网络技术(北京)有限公司 | 智能提示答案的方法及装置 |
CN109344385A (zh) * | 2018-01-30 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN109408811A (zh) * | 2018-09-29 | 2019-03-01 | 联想(北京)有限公司 | 一种数据处理方法及服务器 |
CN109840534A (zh) * | 2017-11-29 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 处理事件的方法和装置 |
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN111309882A (zh) * | 2020-02-13 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 用于实现智能客服问答的方法和装置 |
CN111506715A (zh) * | 2020-04-13 | 2020-08-07 | 深圳追一科技有限公司 | 查询方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
CN103810218A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
CN103927381A (zh) * | 2014-04-29 | 2014-07-16 | 北京百度网讯科技有限公司 | 一种是非问题的处理方法及装置 |
-
2014
- 2014-12-05 CN CN201410742367.0A patent/CN104503998B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187990A (zh) * | 2007-12-14 | 2008-05-28 | 华南理工大学 | 一种会话机器人系统 |
CN103810218A (zh) * | 2012-11-14 | 2014-05-21 | 北京百度网讯科技有限公司 | 一种基于问题簇的自动问答方法和装置 |
CN103927381A (zh) * | 2014-04-29 | 2014-07-16 | 北京百度网讯科技有限公司 | 一种是非问题的处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
刘增健: "基于网络搜索的问答系统", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106547785B (zh) * | 2015-09-22 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 知识库中信息获取方法和系统 |
CN106547785A (zh) * | 2015-09-22 | 2017-03-29 | 阿里巴巴集团控股有限公司 | 知识库中信息获取方法和系统 |
CN106776659A (zh) * | 2015-11-25 | 2017-05-31 | 腾讯科技(深圳)有限公司 | 基于景点成分识别的检索结果排序方法、装置、用户终端 |
CN106815461A (zh) * | 2015-12-02 | 2017-06-09 | 松下知识产权经营株式会社 | 控制方法以及控制装置 |
CN106778862B (zh) * | 2016-12-12 | 2020-04-21 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN106778862A (zh) * | 2016-12-12 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 一种信息分类方法及装置 |
CN107256227A (zh) * | 2017-04-28 | 2017-10-17 | 北京神州泰岳软件股份有限公司 | 面向知识内容的语义概念扩展生成方法与装置 |
CN107016135A (zh) * | 2017-06-09 | 2017-08-04 | 海南大学 | 一种面向非确定、不保真、超复杂资源环境的正反双向动态平衡搜索策略 |
CN107016135B (zh) * | 2017-06-09 | 2019-07-30 | 海南大学 | 一种资源环境的正反双向动态平衡搜索策略 |
WO2018227930A1 (zh) * | 2017-06-15 | 2018-12-20 | 百度在线网络技术(北京)有限公司 | 智能提示答案的方法及装置 |
CN109840534B (zh) * | 2017-11-29 | 2021-10-01 | 北京京东尚科信息技术有限公司 | 处理事件的方法和装置 |
CN109840534A (zh) * | 2017-11-29 | 2019-06-04 | 北京京东尚科信息技术有限公司 | 处理事件的方法和装置 |
CN109344385A (zh) * | 2018-01-30 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN109344385B (zh) * | 2018-01-30 | 2020-12-22 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN108959552A (zh) * | 2018-06-29 | 2018-12-07 | 北京百度网讯科技有限公司 | 问答类查询语句的识别方法、装置、设备及存储介质 |
CN109408811A (zh) * | 2018-09-29 | 2019-03-01 | 联想(北京)有限公司 | 一种数据处理方法及服务器 |
CN109408811B (zh) * | 2018-09-29 | 2021-10-22 | 联想(北京)有限公司 | 一种数据处理方法及服务器 |
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN111309882A (zh) * | 2020-02-13 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 用于实现智能客服问答的方法和装置 |
CN111506715A (zh) * | 2020-04-13 | 2020-08-07 | 深圳追一科技有限公司 | 查询方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN104503998B (zh) | 2018-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104503998A (zh) | 针对用户查询句的类型识别方法及装置 | |
CN110020424B (zh) | 合同信息的提取方法、装置和文本信息的提取方法 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN111291570B (zh) | 一种实现司法文书中要素识别的方法及装置 | |
CN107832229A (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
US10783877B2 (en) | Word clustering and categorization | |
CN106156365A (zh) | 一种知识图谱的生成方法及装置 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
CN105787134B (zh) | 智能问答方法、装置及系统 | |
CN109101551B (zh) | 一种问答知识库的构建方法及装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN111858888B (zh) | 一种值机场景的多轮对话系统 | |
CN114036930A (zh) | 文本纠错方法、装置、设备及计算机可读介质 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN111091009B (zh) | 一种基于语义分析的文档关联审核方法 | |
CN109346108B (zh) | 一种作业检查方法及系统 | |
CN107506349A (zh) | 一种基于网络日志的用户负面情绪预测方法和系统 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
RU2546064C1 (ru) | Распределенная система и способ языкового перевода | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |