CN106095932A - 百科知识问句识别方法及装置 - Google Patents

百科知识问句识别方法及装置 Download PDF

Info

Publication number
CN106095932A
CN106095932A CN201610410604.2A CN201610410604A CN106095932A CN 106095932 A CN106095932 A CN 106095932A CN 201610410604 A CN201610410604 A CN 201610410604A CN 106095932 A CN106095932 A CN 106095932A
Authority
CN
China
Prior art keywords
question sentence
entity
sentence
answer
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610410604.2A
Other languages
English (en)
Other versions
CN106095932B (zh
Inventor
祖佺
刘涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intelligent Technology (shanghai) Co Ltd
Original Assignee
Intelligent Technology (shanghai) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intelligent Technology (shanghai) Co Ltd filed Critical Intelligent Technology (shanghai) Co Ltd
Priority to CN201610410604.2A priority Critical patent/CN106095932B/zh
Publication of CN106095932A publication Critical patent/CN106095932A/zh
Application granted granted Critical
Publication of CN106095932B publication Critical patent/CN106095932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于人工智能技术领域,提供了一种百科知识问句识别方法及装置。本发明的百科知识问句识别方法包括:识别问句中的实体;识别所述问句中所述实体的属性名称;识别所述问句的句型;根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案。本发明的百科知识问句识别方法及装置,可以提高回答涉及百科知识性问题的准确率。

Description

百科知识问句识别方法及装置
技术领域
本发明涉及一种百科知识问句识别方法及装置。
背景技术
自然语言理解(Natural Language Understanding)是人工智能(ArtificialIntelligence)的主要研究内容之一,结合计算机、语言学、逻辑学、认知和哲学原理,使得计算机可以模拟人类智能,从而使得计算机接近像人那样理解自然语言,并帮助人完成一些特定的任务,以及与人进行交流、沟通,甚至成为人的情感陪伴。目前,回答涉及百科知识性问题的准确率较低,而专门针对百科知识的问句理解研究和相关技术较为缺乏。
发明内容
针对现有技术中的缺陷,本发明提供一种百科知识问句识别方法及装置,可以提高回答涉及百科知识性问题的准确率。
第一方面,本发明提供的百科知识问句识别方法,包括:识别问句中的实体;识别所述问句中所述实体的属性名称;识别所述问句的句型;根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案。
可选地,所述识别问句中的实体,包括:分别采用多模式匹配法和NLP分词识别法在图数据库中搜索问句中的实体;若通过多模式匹配法和NLP分词识别法搜索到的结果一致,将该结果作为识别的实体;若通过多模式匹配法和NLP分词识别法搜索不到实体或搜索到的结果不一致,则采用搜索引擎识别法在图数据库中搜索问句中的实体,将搜索结果作为识别的实体。
可选地,所述识别所述问句中所述实体的属性名称,包括:根据所述实体调用相应的属性模板,运用属性模板规则改写所述问句;去掉改写后的问句中的所述实体,根据停用词将去掉实体后的问句分割成多个字符串,去除所述字符串中的停用词,形成候选集;在图数据库中获取所述实体的所有的属性名称,作为参考集;将候选集中的字符串与参考集中的属性名称逐一进行相似度比对,相似度最高的属性名称作为识别的属性名称。
可选地,所述识别所述问句的句型,包括:将所述问句与句型模板进行匹配,得到所述问句的句型。
可选地,所述根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案,包括:若所述问句为介绍性问句,查询图数据库中所述实体的简介,作为所述问句的答案;若所述问句为实体属性问句,查询图数据库中所述实体的所述属性名称的属性值,作为所述问句的答案;若所述问句为关系问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合作为所述问句的答案;若所述问句为实体属性是否问句,查询图数据库中所述实体的所述属性名称的属性值,根据所述属性值作出是或否的回答;若所述问句为关系是否问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合,根据根据查询到的关系作出是或否的回答;若所述问句为关系推理问句,根据所述实体和所述实体的属性名称推理得到第二实体,查询图数据库中第二实体的属性名称对应的属性值,作为所述问句的答案;若所述问句为计算推理问句,调用图数据库中与所述属性名称对应的配置文件,通过运行配置文件中的程序得到所述问句的答案。
本发明提供的百科知识问句识别方法,综合应用图数据库、模板技术、搜索引擎识别等技术,提高了回答涉及百科知识性的问题的准确率,并快速增加可回答的知识范围。
第二方面,本发明提供的百科知识问句识别装置,包括:实体识别模块,用于识别问句中的实体;属性识别模块,用于识别所述问句中所述实体的属性名称;句型识别模块,用于识别所述问句的句型;答案获取模块,用于根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案。
可选地,所述实体识别模块具体用于:分别采用多模式匹配法和NLP分词识别法在图数据库中搜索问句中的实体;若通过多模式匹配法和NLP分词识别法搜索到的结果一致,将该结果作为识别的实体;若通过多模式匹配法和NLP分词识别法搜索不到实体或搜索到的结果不一致,则采用搜索引擎识别法在图数据库中搜索问句中的实体,将搜索结果作为识别的实体。
可选地,所述属性识别模块具体用于:根据所述实体调用相应的属性模板,运用属性模板规则改写所述问句;去掉改写后的问句中的所述实体,根据停用词将去掉实体后的问句分割成多个字符串,去除所述字符串中的停用词,形成候选集;在图数据库中获取所述实体的所有的属性名称,作为参考集;将候选集中的字符串与参考集中的属性名称逐一进行相似度比对,相似度最高的属性名称作为识别的属性名称。
可选地,所述句型识别模块具体用于将所述问句与句型模板进行匹配,得到所述问句的句型。
可选地,所述答案获取模块具体用于:若所述问句为介绍性问句,查询图数据库中所述实体的简介,作为所述问句的答案;若所述问句为实体属性问句,查询图数据库中所述实体的所述属性名称的属性值,作为所述问句的答案;若所述问句为关系问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合作为所述问句的答案;若所述问句为实体属性是否问句,查询图数据库中所述实体的所述属性名称的属性值,根据所述属性值作出是或否的回答;若所述问句为关系是否问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合,根据根据查询到的关系作出是或否的回答;若所述问句为关系推理问句,根据所述实体和所述实体的属性名称推理得到第二实体,查询图数据库中第二实体的属性名称对应的属性值,作为所述问句的答案;若所述问句为计算推理问句,调用图数据库中与所述属性名称对应的配置文件,通过运行配置文件中的程序得到所述问句的答案。
本发明提供的百科知识问句识别装置,综合应用图数据库、模板技术、搜索引擎识别等技术,提高了回答涉及百科知识性的问题的准确率,并快速增加可回答的知识范围。
附图说明
图1为本发明实施例所提供的一种百科知识问句识别方法的流程图;
图2为本发明实施例所提供的一种百科知识问句识别装置的结构框图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
首先,对本发明实施例中出现的名词作以下说明。
本发明实施例主要解决针对百科知识问句的识别和回答,主要包含意图理解、实体识别、属性识别和句型识别。意图理解在本发明实施例中指的是判断一个问句是否是涉及百科知识的问句,百科知识问句必须是涉及实体和与实体相关的属性的问句。比如:“姚明好高呀”是一个感叹句,不是一个问句;“姚明昨天上电视了吗”是一个问句,但不涉及实体“姚明”相关的属性,不是一个百科知识性的问句;而“姚明多高”,涉及实体“姚明”和属性“身高”是一个百科知识性的问句。
实体在本发明实施例中定义为在图数据库中存在的名词,该名词包含了与其相关的一些信息,而这些信息称之为该实体的属性,属性可进一步分成属性名称和属性值。比如“姚明”即为一个实体,姚明的身高是他的一个属性,“身高”是属性名称,“226cm”是该属性的属性值。实体识别和属性识别指的是在一个百科知识问句中识别出该问句所涉及的实体和属性,比如“姚明多高”问句中的实体是“姚明”,属性是“身高”。
百科知识问句的句型可分类为:介绍型问句、实体属性问句、关系问句、是否问句、推理性问句。介绍型问句指的是询问一个实体的简介,比如“姚明是谁”;实体属性问句指询问一个实体的某个具体属性,比如“姚明多高”问句中的实体是“姚明”,属性是“身高”;关系问句指的是询问两个实体之间的关系,比如“姚明和叶莉是什么关系”;是否问句包括实体属性是否问句和关系是否问句,需根据查询到属性信息和关系信息,判断问句中的表述是否正确,以此给出是或否的回答,比如“姚明身高是226cm吗”、“姚明和叶莉是夫妻吗”;推理性问句需要在已有信息基础上进行逻辑上的演算进行解答,比如“姚明的妻子多高”需要在分析得知姚明的妻子是叶莉的基础上,查询叶莉的身高以解答,再比如“姚明多大”是需要结合已知的姚明的出生年和当前年份进行计算以求解。句型识别即指判断一个百科知识性的问句属于哪个类别。
如图1所示,本发明实施例提供的百科知识问句识别方法包括:
步骤S101,识别问句中的实体。
步骤S102,识别问句中实体的属性名称。
步骤S103,识别问句的句型。
步骤S104,根据问句的句型,查询图数据库中与实体或属性名称相关的信息,对查询到的信息进行处理,获得问句的答案。
其中,图数据库的构建方法为:将从百度百科词条页面中抓取到的实体及其属性信息存储到图数据库Neo4j中进行构建的。图谱中,每个实体都用一个节点进行表征,并且在节点上附有该实体相关的属性信息;实体和实体之间有边相连接,表示两个实体间的关系。比如,“姚明”表征为一个节点,节点上附属有身高、出生年月等属性,“叶莉”是另一个节点,同样包含有其相关信息,这两个节点之间有边相连,边上附有属性为“配偶”,表示姚明和叶莉是夫妻关系。
本发明实施例提供的百科知识问句识别方法,提高了回答涉及百科知识性问题的准确率。
步骤S101可实现的方式有多种,本发明实施例提供了一种实现步骤S101的优选方法,具体包括:分别采用多模式匹配法和NLP分词识别法在图数据库中搜索问句中的实体;若通过多模式匹配法和NLP分词识别法搜索到的结果一致,将该结果作为识别的实体;若通过多模式匹配法和NLP分词识别法搜索不到实体或搜索到的结果不一致,则采用搜索引擎识别法在图数据库中搜索问句中的实体,将搜索结果作为识别的实体。
本发明实施例采用的实体识别方法主要基于图数据库进行匹配查询,综合了三种子方法:多模式匹配法,NLP(自然语言分词处理)分词识别法,以及搜索引擎识别法。三种方法的综合应用,可以有效避免漏检、错检的概率,提高了实体识别的准确率。
多模式匹配法是将问句作为输入,将图数据库中所有已有的实体作为参考集,通过多模式匹配的方法来快速判断问句中含有哪些图数据库中已有的实体。多模式匹配的方法有Aho-Corasick和Wu-Manber,这里我们使用Wu-Manber。NLP分词识别是先建立一份排好序的实体表,对于一个问句,首先进行分词,然后对于每个分词,用二分查找的方法快速判断该分词是否是一个实体,如此来判断问句中是否存在实体。搜索引擎识别的方法是先建立Solr索引,关键词选用分好词的实体名称、属性、属性值,每个实体作为一个页面;对于一个问句,将其分词的集合输入到Solr中,寻找与该集合最为匹配的实体页面,即可判断问句与图数据库中实体的吻合度。搜索引擎识别的方法对于处理问句中不含有实体名称但与实体相关的情况非常有效,比如“小巨人是谁”,这里的“小巨人”是“姚明”实体的别名,通过Solr即可匹配到该实体。
步骤S102可实现的方式有多种,本发明实施例提供了一种实现步骤S102的优选方法,具体包括:根据实体调用相应的属性模板,运用属性模板规则改写问句;去掉改写后的问句中的所述实体,根据停用词将去掉实体后的问句分割成多个字符串,形成候选集;在图数据库中获取实体的所有的属性名称,作为参考集;将候选集中的字符串与参考集中的属性名称逐一进行相似度比对,相似度最高的属性名称作为识别的属性名称。
分割问句会根据停用词进行分割,比如:“姚明的老婆的身高多少?”去掉实体“姚明”后,根据停用词“的”将该句分割成“老婆”和“身高”,{“老婆”,“身高}即为候选集。
停用词包括语气助词、副词、介词、连接词等,通常这些词并无明确的意义,如常见的“的”、“在”、“是”之类。在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉停用词。停用词通过人为设定,形成一个停用词表。
属性识别是在已识别实体的基础上继续识别问句中涉及该实体的属性,主要使用模板技术和模式匹配(pattern matching)。模板技术是将符合模板规则的问句进行改写,比如问句“姚明属什么”符合模板规则“^#^属什么^”,进而改写成为“姚明的生肖是什么”。在应用模板时需要解决的问题是生成以及效率,模板的规模较大,最终包含大约3000多个条目,这些条目的生成和维护的方法是通过在正则规则的基础上自动生成模板的方式来进行。比如事先撰写的规则为“^#^属^什么/啥^呀/呢”,以此规则展开为4个条目“^#^属什么呀”,“^#^属什么呢”,“^#^属啥呀”,“^#^属啥呢”,同样,后续在维护模板时,通过修改规则来自动更新条目。为了提高模板的运行效率,会根据实体所属分类进行模板的拆分。
模式匹配用来比较两个字符串的相似度,进而判断语义的相似度。其算法思想可描述为对于两个字符串,分别从一端向另一端扫描每个字符,根据字符是否相同来最终得到两个字符串的相似度打分。比如“最高分”和“最高得分”,分别从左往右扫描的过程中,首先匹配上2个字符加2分,第三个字符没有匹配上减1分,最后一个字符匹配上加1分,最后得分是2分。设定一个阈值,比如0分,作为判断两个字符串最终是否认定是相似的判断标准。
属性识别是在实体识别的基础上进行的,对于一个已经识别实体的问句,首先根据实体所属的类别调用相应的模板,运用属性模板规则改写问句。然后再根据实体可将问句分割成多个部分,去除停用词后形成候选集。在图谱中取得该实体的所有的属性名称集合,作为参考集。对于候选集中的每个字符串,尝试用模式匹配的方法来判断其相似度,最终在多个超过阈值的候选集中选取得分最高的作为识别的属性返回。比如问句“姚明的生涯单场最高得分多少”,已知“姚明”是实体,得到其候选集是“生涯单场最高得分”,取得“姚明”实体的所有属性名称,最后通过模式匹配识别到属性“生涯最高分”。
本发明实施例中采用的属性识别方法综合了模板技术和模式匹配的优势,提高了属性识别的效率和准确率。
步骤S103可实现的方式有多种,本发明实施例提供了一种实现步骤S103的优选方法,具体包括:将问句与句型模板进行匹配,得到问句的句型。匹配的过程为:将问句的句型用正则形式表达出来,再根据对于句型的匹配来识别句型。比如:模板:“<pattern>^##*<type>entity</type>是谁</pattern>”对应一种介绍性问句;问句“姚明是谁”可匹配上这个模板,继而可被判断为是一个介绍性的问句。
步骤S104可实现的方式有多种,本发明实施例提供了一种实现步骤S104的优选方法,具体包括:若问句为介绍性问句,查询图数据库中实体的简介,作为所述问句的答案;若所述问句为实体属性问句,查询图数据库中所述实体的所述属性名称的属性值,作为所述问句的答案;若所述问句为关系问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合作为所述问句的答案;若所述问句为实体属性是否问句,查询图数据库中所述实体的所述属性名称的属性值,根据所述属性值作出是或否的回答;若所述问句为关系是否问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合,根据根据查询到的关系作出是或否的回答;若所述问句为关系推理问句,根据所述实体和所述实体的属性名称推理得到第二实体,查询图数据库中第二实体的属性名称对应的属性值,作为所述问句的答案;若所述问句为计算推理问句,调用图数据库中与所述属性名称对应的配置文件,通过运行配置文件中的程序得到所述问句的答案。
句型识别和处理主要使用模板技术、图数据库和Java的反射机制。通过模板技术来判断问句属于介绍型问句、实体属性问句、是否问句、关系问句、推理性问句。
下面对于不同类型句型的处理作以下解释和举例。
对于介绍性问句,比如“姚明是谁”,通过查询图数据库返回该实体“姚明”的简介。
对于实体属性问句,比如“姚明多高”问句中的实体是“姚明”,属性是“身高”,通过查询图数据库中实体“姚明”的属性“身高”,其属性值“226cm”作为问题的答案。
对于关系问句,比如“姚明和叶莉是什么关系”,通过在图数据库中寻找两个实体节点“姚明”和“叶莉”之间的最短路径,这两个节点之间的边上附有属性为“配偶”,表示姚明和叶莉是夫妻关系。
对于实体属性是否问句和关系是否问句,需根据查询到属性信息和关系信息,判断问句中的表述是否正确,以此给出是或否的回答。
对于关系推理问句,比如“姚明的妻子的身高多少”中,首先通过查询“姚明的妻子”得到实体“叶莉”,在查询“叶莉”实体的属性“身高”进行回答。
对于计算推理问句,比如“姚明多大”,“姚明”的属性中只有“出生时间”,计算其年龄需要通过计算当前年份减去其出生年份得到答案。这里,将该类需计算的属性写成配置文件,对应上相应的java方法,若有问句涉及该属性,则通过java的反射机制调用相应的方法进行查询和回答。
本发明实施例提供的百科知识问句识别方法,综合应用图数据库、模板技术、搜索引擎识别等技术,快速增加可回答的知识范围,并可以提高回答涉及百科知识性问题的准确率,通过大量的测试证明,在3万词条的规模程度上,介绍性问题和实体属性问题的正确率在90%,其他问句正确率在80%。
基于与上述百科知识问句识别方法相同的发明构思,本发明实施例还提供了一种百科知识问句识别装置,包括:实体识别模块101,用于识别问句中的实体;属性识别模块102,用于识别问句中实体的属性名称;句型识别模块103,用于识别问句的句型;答案获取模块104,用于根据问句的句型,查询图数据库中与实体或属性名称相关的信息,对查询到的信息进行处理,获得问句的答案。
其中,实体识别模块101具体用于:分别采用多模式匹配法和NLP分词识别法在图数据库中搜索问句中的实体;若通过多模式匹配法和NLP分词识别法搜索到的结果一致,将该结果作为识别的实体;若通过多模式匹配法和NLP分词识别法搜索不到实体或搜索到的结果不一致,则采用搜索引擎识别法在图数据库中搜索问句中的实体,将搜索结果作为识别的实体。
其中,属性识别模块102具体用于:根据实体调用相应的属性模板,运用属性模板规则改写问句;根据实体将改写后的问句分割成多个字符串,去除字符串中的停用词,形成候选集;在图数据库中获取实体的所有的属性名称,作为参考集;将候选集中的字符串与参考集中的属性名称逐一进行相似度比对,相似度最高的属性名称作为识别的属性名称。
其中,句型识别模块103具体用于将问句与句型模板进行匹配,得到问句的句型。
其中,答案获取模块104具体用于:若问句为介绍性问句,查询图数据库中实体的简介,作为问句的答案;若问句为实体属性问句,查询图数据库中实体的属性名称的属性值,作为问句的答案;若问句为是否问句,查询图数据库中实体的属性名称的属性值,根据属性值作出是或否的回答;若问句为关系问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合作为问句的答案;若问句为关系推理问句,根据实体和实体的属性名称推理得到第二实体,查询图数据库中第二实体的属性名称对应的属性值,作为问句的答案;若问句为计算推理问句,调用图数据库中与属性名称对应的配置文件,通过运行配置文件中的程序得到问句的答案。
本发明实施例提供的百科知识问句识别装置,综合应用图数据库、模板技术、搜索引擎识别等技术,快速增加可回答的知识范围,并可以提高回答涉及百科知识性问题的准确率,通过大量的测试证明,在3万词条的规模程度上,介绍性问题和实体属性问题的正确率在90%,其他问句正确率在80%。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种百科知识问句识别方法,其特征在于,包括:
识别问句中的实体;
识别所述问句中所述实体的属性名称;
识别所述问句的句型;
根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案。
2.根据权利要求1所述的方法,其特征在于,所述识别问句中的实体,包括:
分别采用多模式匹配法和NLP分词识别法在图数据库中搜索问句中的实体;
若通过多模式匹配法和NLP分词识别法搜索到的结果一致,将该结果作为识别的实体;若通过多模式匹配法和NLP分词识别法搜索不到实体或搜索到的结果不一致,则采用搜索引擎识别法在图数据库中搜索问句中的实体,将搜索结果作为识别的实体。
3.根据权利要求1所述的方法,其特征在于,所述识别所述问句中所述实体的属性名称,包括:
根据所述实体调用相应的属性模板,运用属性模板规则改写所述问句;
去掉改写后的问句中的所述实体,根据停用词将去掉实体后的问句分割成多个字符串,去除所述字符串中的停用词,形成候选集;
在图数据库中获取所述实体的所有的属性名称,作为参考集;
将候选集中的字符串与参考集中的属性名称逐一进行相似度比对,相似度最高的属性名称作为识别的属性名称。
4.根据权利要求1所述的方法,其特征在于,所述识别所述问句的句型,包括:将所述问句与句型模板进行匹配,得到所述问句的句型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案,包括:
若所述问句为介绍性问句,查询图数据库中所述实体的简介,作为所述问句的答案;
若所述问句为实体属性问句,查询图数据库中所述实体的所述属性名称的属性值,作为所述问句的答案;
若所述问句为关系问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合作为所述问句的答案;
若所述问句为实体属性是否问句,查询图数据库中所述实体的所述属性名称的属性值,根据所述属性值作出是或否的回答;
若所述问句为关系是否问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合,根据根据查询到的关系作出是或否的回答;
若所述问句为关系推理问句,根据所述实体和所述实体的属性名称推理得到第二实体,查询图数据库中第二实体的属性名称对应的属性值,作为所述问句的答案;
若所述问句为计算推理问句,调用图数据库中与所述属性名称对应的配置文件,通过运行配置文件中的程序得到所述问句的答案。
6.一种百科知识问句识别装置,其特征在于,包括:
实体识别模块,用于识别问句中的实体;
属性识别模块,用于识别所述问句中所述实体的属性名称;
句型识别模块,用于识别所述问句的句型;
答案获取模块,用于根据所述问句的句型,查询图数据库中与所述实体或所述属性名称相关的信息,对查询到的信息进行处理,获得所述问句的答案。
7.根据权利要求6所述的装置特征在于,所述实体识别模块具体用于:
分别采用多模式匹配法和NLP分词识别法在图数据库中搜索问句中的实体;
若通过多模式匹配法和NLP分词识别法搜索到的结果一致,将该结果作为识别的实体;若通过多模式匹配法和NLP分词识别法搜索不到实体或搜索到的结果不一致,则采用搜索引擎识别法在图数据库中搜索问句中的实体,将搜索结果作为识别的实体。
8.根据权利要求6所述的装置特征在于,所述属性识别模块具体用于:
根据所述实体调用相应的属性模板,运用属性模板规则改写所述问句;
去掉改写后的问句中的所述实体,根据停用词将去掉实体后的问句分割成多个字符串,去除所述字符串中的停用词,形成候选集;
在图数据库中获取所述实体的所有的属性名称,作为参考集;
将候选集中的字符串与参考集中的属性名称逐一进行相似度比对,相似度最高的属性名称作为识别的属性名称。
9.根据权利要求6所述的装置特征在于,所述句型识别模块具体用于将所述问句与句型模板进行匹配,得到所述问句的句型。
10.根据权利要求6所述的装置特征在于,所述答案获取模块具体用于:
若所述问句为介绍性问句,查询图数据库中所述实体的简介,作为所述问句的答案;
若所述问句为实体属性问句,查询图数据库中所述实体的所述属性名称的属性值,作为所述问句的答案;
若所述问句为关系问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合作为所述问句的答案;
若所述问句为实体属性是否问句,查询图数据库中所述实体的所述属性名称的属性值,根据所述属性值作出是或否的回答;
若所述问句为关系是否问句,查询图数据库中两个实体所在的节点之间的最短路径,该路径上所有边所代表关系的结合,根据根据查询到的关系作出是或否的回答;
若所述问句为关系推理问句,根据所述实体和所述实体的属性名称推理得到第二实体,查询图数据库中第二实体的属性名称对应的属性值,作为所述问句的答案;
若所述问句为计算推理问句,调用图数据库中与所述属性名称对应的配置文件,通过运行配置文件中的程序得到所述问句的答案。
CN201610410604.2A 2016-06-13 2016-06-13 百科知识问句识别方法及装置 Active CN106095932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610410604.2A CN106095932B (zh) 2016-06-13 2016-06-13 百科知识问句识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610410604.2A CN106095932B (zh) 2016-06-13 2016-06-13 百科知识问句识别方法及装置

Publications (2)

Publication Number Publication Date
CN106095932A true CN106095932A (zh) 2016-11-09
CN106095932B CN106095932B (zh) 2019-12-20

Family

ID=57845264

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610410604.2A Active CN106095932B (zh) 2016-06-13 2016-06-13 百科知识问句识别方法及装置

Country Status (1)

Country Link
CN (1) CN106095932B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107885842A (zh) * 2017-11-10 2018-04-06 上海智臻智能网络科技股份有限公司 智能问答的方法、装置、服务器及存储介质
CN107977415A (zh) * 2017-11-22 2018-05-01 北京寻领科技有限公司 自动问答方法及装置
CN108038113A (zh) * 2017-10-16 2018-05-15 武汉楚鼎信息技术有限公司 基于互联网金融智能问答的检索方法及系统
CN108804525A (zh) * 2018-04-27 2018-11-13 出门问问信息科技有限公司 一种智能回答方法及装置
CN108874917A (zh) * 2018-05-30 2018-11-23 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN109033305A (zh) * 2018-07-16 2018-12-18 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN109753557A (zh) * 2018-12-26 2019-05-14 出门问问信息科技有限公司 问答系统的答案输出方法、装置、设备及存储介质
CN109829037A (zh) * 2017-11-22 2019-05-31 上海智臻智能网络科技股份有限公司 智能自动问答的方法、系统、服务器及存储介质
CN110019687A (zh) * 2019-04-11 2019-07-16 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别系统、方法、设备及介质
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
WO2020010834A1 (zh) * 2018-07-13 2020-01-16 众安信息技术服务有限公司 一种faq问答库泛化方法、装置及设备
CN111428018A (zh) * 2020-03-26 2020-07-17 中国建设银行股份有限公司 智能问答方法及装置
CN113360616A (zh) * 2021-06-04 2021-09-07 科大讯飞股份有限公司 自动问答处理方法、装置、设备及存储介质
CN114077831A (zh) * 2020-08-21 2022-02-22 北京金山数字娱乐科技有限公司 一种问题文本分析模型的训练方法及装置
CN117076648A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 一种对话文本处理方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298696A (zh) * 2010-06-28 2011-12-28 方正国际软件(北京)有限公司 一种字符识别方法及系统
CN102737042A (zh) * 2011-04-08 2012-10-17 北京百度网讯科技有限公司 建立问句生成模型的方法和装置以及问句生成方法和装置
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和系统
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN105354300A (zh) * 2015-11-05 2016-02-24 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298696A (zh) * 2010-06-28 2011-12-28 方正国际软件(北京)有限公司 一种字符识别方法及系统
CN102737042A (zh) * 2011-04-08 2012-10-17 北京百度网讯科技有限公司 建立问句生成模型的方法和装置以及问句生成方法和装置
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和系统
US9190055B1 (en) * 2013-03-14 2015-11-17 Amazon Technologies, Inc. Named entity recognition with personalized models
CN105095195A (zh) * 2015-07-03 2015-11-25 北京京东尚科信息技术有限公司 基于知识图谱的人机问答方法和系统
CN105354300A (zh) * 2015-11-05 2016-02-24 上海智臻智能网络科技股份有限公司 一种信息推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈燕,张金松著: "《大数据技术及其应用》", 31 December 2015 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019825B (zh) * 2017-07-25 2021-08-20 华为技术有限公司 一种分析数据语义的方法及装置
CN110019825A (zh) * 2017-07-25 2019-07-16 华为技术有限公司 一种分析数据语义的方法及装置
CN108038113A (zh) * 2017-10-16 2018-05-15 武汉楚鼎信息技术有限公司 基于互联网金融智能问答的检索方法及系统
CN107885842A (zh) * 2017-11-10 2018-04-06 上海智臻智能网络科技股份有限公司 智能问答的方法、装置、服务器及存储介质
CN107977415A (zh) * 2017-11-22 2018-05-01 北京寻领科技有限公司 自动问答方法及装置
CN109829037A (zh) * 2017-11-22 2019-05-31 上海智臻智能网络科技股份有限公司 智能自动问答的方法、系统、服务器及存储介质
CN108804525A (zh) * 2018-04-27 2018-11-13 出门问问信息科技有限公司 一种智能回答方法及装置
CN108804525B (zh) * 2018-04-27 2021-04-13 出门问问信息科技有限公司 一种智能回答方法及装置
CN108874917A (zh) * 2018-05-30 2018-11-23 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
WO2020010834A1 (zh) * 2018-07-13 2020-01-16 众安信息技术服务有限公司 一种faq问答库泛化方法、装置及设备
CN109033305A (zh) * 2018-07-16 2018-12-18 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN109033305B (zh) * 2018-07-16 2022-04-01 深圳前海微众银行股份有限公司 问题回答方法、设备及计算机可读存储介质
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN109284363B (zh) * 2018-12-03 2023-03-14 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质
CN109753557A (zh) * 2018-12-26 2019-05-14 出门问问信息科技有限公司 问答系统的答案输出方法、装置、设备及存储介质
CN110019687B (zh) * 2019-04-11 2021-03-23 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别系统、方法、设备及介质
CN110019687A (zh) * 2019-04-11 2019-07-16 宁波深擎信息科技有限公司 一种基于知识图谱的多意图识别系统、方法、设备及介质
CN110287209A (zh) * 2019-06-10 2019-09-27 北京百度网讯科技有限公司 问答处理方法、装置、设备和存储介质
CN111428018A (zh) * 2020-03-26 2020-07-17 中国建设银行股份有限公司 智能问答方法及装置
CN111428018B (zh) * 2020-03-26 2024-02-06 中国建设银行股份有限公司 智能问答方法及装置
CN114077831A (zh) * 2020-08-21 2022-02-22 北京金山数字娱乐科技有限公司 一种问题文本分析模型的训练方法及装置
CN113360616A (zh) * 2021-06-04 2021-09-07 科大讯飞股份有限公司 自动问答处理方法、装置、设备及存储介质
CN117076648A (zh) * 2023-10-13 2023-11-17 腾讯科技(深圳)有限公司 一种对话文本处理方法、装置、电子设备和存储介质
CN117076648B (zh) * 2023-10-13 2024-02-06 腾讯科技(深圳)有限公司 一种对话文本处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN106095932B (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN106095932A (zh) 百科知识问句识别方法及装置
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
CN110968700B (zh) 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
Jefferson et al. Fuzzy approach for sentiment analysis
CN105677795B (zh) 抽象语义的推荐方法、推荐装置及推荐系统
CN105912629B (zh) 一种智能问答方法及装置
CN106649742A (zh) 数据库维护方法和装置
CN110347787B (zh) 一种基于ai辅助面试场景的面试方法、装置及终端设备
CN110782892B (zh) 语音文本纠错方法
CN114780691B (zh) 模型预训练及自然语言处理方法、装置、设备及存储介质
Megala et al. Enriching text summarization using fuzzy logic
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
Pabitha et al. Automatic question generation system
CN115292518A (zh) 基于知识型信息抽取的配电网故障处理方法及系统
CN112231451A (zh) 指代词恢复方法、装置、对话机器人及存储介质
Ribeiro et al. Discovering IMRaD structure with different classifiers
CN112711666B (zh) 期货标签抽取方法及装置
CN105631032B (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN116821351A (zh) 一种基于跨度信息的端到端电力知识图谱关系抽取方法
Iwatsuki et al. Communicative-function-based sentence classification for construction of an academic formulaic expression database
CN115774996A (zh) 智能面试的追问题目生成方法、装置和电子设备
CN115936932A (zh) 司法文书的处理方法、装置、电子设备和存储介质
Sporleder A galois lattice based approach to lexical inheritance hierarchy learning
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant