CN105824933B - 基于主述位的自动问答系统及其实现方法 - Google Patents
基于主述位的自动问答系统及其实现方法 Download PDFInfo
- Publication number
- CN105824933B CN105824933B CN201610156326.2A CN201610156326A CN105824933B CN 105824933 B CN105824933 B CN 105824933B CN 201610156326 A CN201610156326 A CN 201610156326A CN 105824933 B CN105824933 B CN 105824933B
- Authority
- CN
- China
- Prior art keywords
- module
- sentence
- answer
- rheme
- sovereign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于主述位的自动问答系统及实现方法,包含预处理模块、问题理解模块、信息检索模块、答案抽取模块以及知识库模块,预处理模块,用于对用户问句的分词、词性标注;问题理解模块,对问句进行问题分类、主述位切分;信息检索模块,对问句进行答案检索、相似度排序;答案抽取模块,对检索出的答案进行成分抽取、答案合成;知识库模块,构建答案语料知识库。基于语义理解提出基于主述位的问答系统答案相似度搜索匹配方法,先将答案语料库中的篇章切分为小句,将小句分为主位和述位,来表示小句的篇章结构,通过分析问句的主位以及述位,理解用户提问的意图,了解用户已知的信息,从答案中寻找用户未知的内容,以提高自动问答的正确率。
Description
技术领域
本发明涉及一种基于主述位的自动问答系统及其实现方法。
背景技术
当前互联网技术高速发展,每天都有海量的信息存储在互联网上,人们也不断地使用搜索引擎去获取各类信息。但目前的搜索引擎存在很大的局限性,比如用户的搜索返回的通常是大量的相关网页繁多而且冗杂等,传统的搜索引擎已经不适应当前用户的需求,自动问答系统应运而生。自动问答系统允许用户以自然语言来进行提问,通过各种自然语言处理技术理解用户的问题,并返回较为简洁的答案。
但是,就目前的自动问答技术来说,大部分的自动问答系统还是基于关键词匹配的形式去搜索用户所需要的信息,并不能理解用户真正的需求。有的时候,人们查找信息的需求并不一定能通过简单的关键词组合来表达自己的意图,这样,自动问答系统就更不能接受并且理解用户的意图,进而给出令人满意的答案了。而且,这种关键词匹配的形式,使用最简单的关键词匹配的形式查找相关信息,无法处理用户的深层语义,因而有的时候检索出来的答案相差很大,准确率很低。在Tree会议的测试中,目前的自动问答系统的准确率一般都在30%左右。
发明内容
本发明的目的是克服现有技术存在的不足,提供一种基于主述位的自动问答系统及其实现方法,基于语义理解提出基于主述位的问答系统答案相似度搜索匹配,提高自动问答的准确率。
本发明的目的通过以下技术方案来实现:
基于主述位的自动问答系统,特点是:包含预处理模块、问题理解模块、信息检索模块、答案抽取模块以及知识库模块,所述预处理模块,用于对用户问句的分词、词性标注;
所述问题理解模块,用于对问句进行问题分类、主述位切分;
所述信息检索模块,用于对问句进行答案检索、相似度排序;
所述答案抽取模块,用于对检索出的答案进行成分抽取、答案合成;
所述知识库模块,用于答案语料知识库的构建。
进一步地,上述的基于主述位的自动问答系统,其中,所述预处理模块包含中文分词模块和词性标注模块,中文分词模块,用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型。
更进一步地,上述的基于主述位的自动问答系统,其中,所述问题理解模块包含问题分类模块和主述位切分模块,所述问题分类模块,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述。
更进一步地,上述的基于主述位的自动问答系统,其中,所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位。
更进一步地,上述的基于主述位的自动问答系统,其中,所述信息检索模块包含答案检索模块和相似度排序模块;所述答案检索模块根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=(T1,T2,...,Tn)表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为
引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为
计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块将计算的结果集进行由大到小排序,提取最相关的答案语料。
更进一步地,上述的基于主述位的自动问答系统,其中,所述答案抽取模块包含答案成分抽取模块和答案合成模块;答案成分抽取模块对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块将答案成分与用户的问句进行合成,生成最终答案。
更进一步地,上述的基于主述位的自动问答系统,其中,所述知识库模块包含知识爬取模块、小句切分模块、主述位切分模块、数据存储模块;知识爬取模块通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块将最后处理的结果存储在数据库中,以便进行信息检索。
本发明基于主述位的自动问答方法,包括以下步骤:
用户提出问题,对问句进行中文分词,将每个词语区分开来;
将区分好的问句进行词性标注;
提取问句的疑问词短语,根据疑问词短语来进行问题分类;
去掉问句中的疑问词短语,并进行主述位切分,找出问句中缺失的成分;
依照问句的主述位,将其带入答案语料中进行相似度计算;
对答案语料的相似度进行排序,提取相似度最高的答案语料;
根据问句理解模块中得到的问句类型以及问句所需成分,提取出答案语料中的信息;
与用户的问句进行合成,形成最终答案。
再进一步地,上述的基于主述位的自动问答方法,由预处理模块,对问句进行中文分词以及词性标注,为问句处理提供先决条件;由问题理解模块,对问句的类型进行识别,将不同类型的问题区分开来,根据不同的问句类型采取不同的处理方式,并且对问句进行主述位切分,理解提问的意图;由信息检索模块,将问句带入知识库中进行检索,通过基于主述位理论的方法,进行相似度计算,提取出最相关的答案;由答案抽取模块,将检索的答案根据问句的问题类型以及提问的意图进行处理,抽取出需要的成分与问句进行合成,得到最终的答案;由知识库模块,从网络上爬取相关信息并生成知识库存储在数据库中,供信息检索模块进行答案检索。
再进一步地,上述的基于主述位的自动问答方法,所述预处理模块包含中文分词模块和词性标注模块,中文分词模块,用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型;
所述问题理解模块包含问题分类模块和主述位切分模块,所述问题分类模块,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述;所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位;
所述信息检索模块包含答案检索模块和相似度排序模块;所述答案检索模块根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=(T1,T2,...,Tn)表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为
引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为
计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块将计算的结果集进行由大到小排序,提取最相关的答案语料;
所述答案抽取模块包含答案成分抽取模块和答案合成模块;答案成分抽取模块对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块将答案成分与用户的问句进行合成,生成最终答案;
所述知识库模块包含知识爬取模块、小句切分模块、主述位切分模块、数据存储模块;知识爬取模块通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块将最后处理的结果存储在数据库中,以便进行信息检索。
本发明技术方案突出的实质性特点和显著的进步主要体现在:
①基于语义理解提出基于主述位的问答系统答案相似度搜索匹配方法,首先将答案语料库中的篇章切分为小句,进一步将小句分为主位和述位,来表示小句的篇章结构,通过分析问句的主位以及述位,理解用户提问的意图,了解用户已知的信息,从答案中寻找用户未知的内容,以提高自动问答的正确率;
②采用新型的主述位切分的模式,取代常用的关键词提取的方法,将问句切分成主位和述位,通过主位和述位来理解问句的语义,获取问句中已知的成分以及问句提问的意图;
③采用主述位词向量语义匹配的方法替代关键词匹配的方法,并采用基于主述位的词向量语义相似度计算,通过基于主述位的词向量语义相似度匹配来得到最佳答案,提高问答的准确率。
附图说明
图1:本发明系统的架构原理示意图;
图2:预处理模块的架构原理示意图;
图3:问题理解模块的架构原理示意图;
图4:信息检索模块的架构原理示意图;
图5:答案抽取模块的架构原理示意图;
图6:知识库模块的架构原理示意图;
图7:本发明的流程示意图。
具体实施方式
通过对当前自动问答技术的研究,提出了一种基于主述位的技术方法,首先将答案语料库中的篇章切分为小句,进一步将小句分为主位和述位,来表示小句的篇章结构。主位是指用户已知的信息,述位是指有关该话题所陈述的新的事实。通过分析问句的主位以及述位,理解用户提问的意图,了解用户已知的信息,从答案中寻找用户未知的内容,以提高自动问答的正确率。
如图1所示,基于主述位的自动问答系统,包含预处理模块1、问题理解模块2、信息检索模块3、答案抽取模块4以及知识库模块5,预处理模块1,用于对用户问句的分词、词性标注;
问题理解模块2,用于对问句进行问题分类、主述位切分;
信息检索模块3,用于对问句进行答案检索、相似度排序;
答案抽取模块4,用于对检索出的答案进行成分抽取、答案合成;
知识库模块5,用于答案语料知识库的构建。
如图2所示,预处理模块1包含中文分词模块101和词性标注模块102,中文分词模块101,用于问句中文分词,自然语言处理是基于词语的基础上处理,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块102,用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型。
如图3所示,问题理解模块2包含问题分类模块201和主述位切分模块202,所述问题分类模块201,用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,比如在用户的提问中含有疑问词“谁”,就可很容易地知道用户提问的意图是在询问人名,当用户的提问中会出现疑问词“什么”这类一般疑问词的时,还会采取找到疑问句中与疑问词联合紧密、目的明确的词语来和疑问词合并,组成疑问词短语来进一步判断用户提问的意图,对问题进行分类;主述位切分模块202对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,位于句首的位置,既可是功能性的,也可能是结构性的,述位是指话语的未知信息,是对主位的陈述;主位分成单项主位、复项主位和句项主位,当句子或者话语的主位内部未含有主位述位结构时,主位是一个独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,如“好的”、“现在”等,结构成分,如“当”、“但是”等,连接成分,如“然后”、“最后”等组成,人际成分提取语句中的人物称呼,如“女士们”等,情态成分,如“惊讶地”等,限定成分,如“不”等,疑问词成分,比如“何时”等结构来组成,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位。
如图4所示,信息检索模块3包含答案检索模块301和相似度排序模块302;所述答案检索模块301根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=(T1,T2,...,Tn)表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为
引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为
计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块302将计算的结果集进行由大到小排序,提取最相关的答案语料。
如图5所示,答案抽取模块4包含答案成分抽取模块401和答案合成模块402;答案成分抽取模块401对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块401根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,如问句提问时间的时候,就需要提取答案语料中的时间词语,答案合成模块402将答案成分与用户的问句进行合成,生成最终答案。
如图6所示,知识库模块5包含知识爬取模块501、小句切分模块502、主述位切分模块503、数据存储模块504;知识爬取模块501通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块502将爬取到的文章材料进行切分,通过句号等标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块503将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块504将最后处理的结果存储在数据库中,以便进行信息检索。
基于主述位的自动问答方法,其步骤为:
用户提出问题,对问句进行中文分词,将每个词语区分开来;
将区分好的问句进行词性标注;
提取问句的疑问词短语,根据疑问词短语来进行问题分类;
去掉问句中的疑问词短语,并进行主述位切分,找出问句中缺失的成分;
依照问句的主述位,将其带入答案语料中进行相似度计算;
对答案语料的相似度进行排序,提取相似度最高的答案语料;
根据问句理解模块中得到的问句类型以及问句所需成分,提取出答案语料中的信息;
与用户的问句进行合成,形成最终答案。
如图7所示,由预处理模1,对问句进行中文分词以及词性标注,为问句处理提供先决条件;问题理解模块2,对问句的类型进行识别,将不同类型的问题区分开来,根据不同的问句类型采取不同的处理方式,并且对问句进行主述位切分,理解提问的意图;信息检索模块3,将问句带入知识库中进行检索,通过基于主述位理论的方法,进行相似度计算,提取出最相关的答案;答案抽取模块4,将检索的答案根据问句的问题类型以及提问的意图进行处理,抽取出需要的成分与问句进行合成,得到最终的答案;知识库模块5,从网络上爬取相关信息并生成知识库存储在数据库中,供信息检索模块进行答案检索。
本发明基于语义理解提出一种基于主述位的问答系统答案相似度搜索匹配方法,提高自动问答系统的准确率。采用一种新型的主述位切分的模式,取代常用的关键词提取的方法,将问句切分成主位和述位,通过主位和述位来理解问句的语义,获取问句中已知的成分以及问句提问的意图。采用主述位词向量语义匹配的方法替代关键词匹配的方法,并采用基于主述位的词向量语义相似度计算。通过基于主述位的词向量语义相似度匹配来得到最佳答案,提高问答的准确率。
需要理解到的是:以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.基于主述位的自动问答系统,其特征在于:包含预处理模块(1)、问题理解模块(2)、信息检索模块(3)、答案抽取模块(4)以及知识库模块(5),所述预处理模块(1),用于对用户问句的分词、词性标注;
所述问题理解模块(2),用于对问句进行问题分类、主述位切分;
所述信息检索模块(3),用于对问句进行答案检索、相似度排序;
所述答案抽取模块(4),用于对检索出的答案进行成分抽取、答案合成;
所述知识库模块(5),用于答案语料知识库的构建;
所述信息检索模块(3)包含答案检索模块(301)和相似度排序模块(302);所述答案检索模块(301)根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=(T1,T2,...,Tn)表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为
引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为
计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块(302)将计算的结果集进行由大到小排序,提取最相关的答案语料。
2.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述预处理模块(1)包含中文分词模块(101)和词性标注模块(102),中文分词模块(101),用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块(102),用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型。
3.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述问题理解模块(2)包含问题分类模块(201)和主述位切分模块(202),所述问题分类模块(201),用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块(202)对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述。
4.根据权利要求3所述的基于主述位的自动问答系统,其特征在于:所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位。
5.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述答案抽取模块(4)包含答案成分抽取模块(401)和答案合成模块(402);答案成分抽取模块(401)对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块(401)根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块(402)将答案成分与用户的问句进行合成,生成最终答案。
6.根据权利要求1所述的基于主述位的自动问答系统,其特征在于:所述知识库模块(5)包含知识爬取模块(501)、小句切分模块(502)、主述位切分模块(503)、数据存储模块(504);知识爬取模块(501)通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块(502)将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块(503)将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块(504)将最后处理的结果存储在数据库中,以便进行信息检索。
7.权利要求1所述系统实现基于主述位的自动问答方法,其特征在于包括以下步骤:
用户提出问题,对问句进行中文分词,将每个词语区分开来;
将区分好的问句进行词性标注;
提取问句的疑问词短语,根据疑问词短语来进行问题分类;
去掉问句中的疑问词短语,并进行主述位切分,找出问句中缺失的成分;
依照问句的主述位,将其带入答案语料中进行相似度计算;
对答案语料的相似度进行排序,提取相似度最高的答案语料;
根据问句理解模块中得到的问句类型以及问句所需成分,提取出答案语料中的信息;
与用户的问句进行合成,形成最终答案。
8.根据权利要求7所述的基于主述位的自动问答方法,其特征在于:由预处理模块(1),对问句进行中文分词以及词性标注,为问句处理提供先决条件;由问题理解模块(2),对问句的类型进行识别,将不同类型的问题区分开来,根据不同的问句类型采取不同的处理方式,并且对问句进行主述位切分,理解提问的意图;由信息检索模块(3),将问句带入知识库中进行检索,通过基于主述位理论的方法,进行相似度计算,提取出最相关的答案;由答案抽取模块(4),将检索的答案根据问句的问题类型以及提问的意图进行处理,抽取出需要的成分与问句进行合成,得到最终的答案;由知识库模块(5),从网络上爬取相关信息并生成知识库存储在数据库中,供信息检索模块进行答案检索。
9.根据权利要求8所述的基于主述位的自动问答方法,其特征在于:
所述预处理模块(1)包含中文分词模块(101)和词性标注模块(102),中文分词模块(101),用于问句中文分词,将问句中的词语进行切分出,采用分词工具,得到一串词汇序列;词性标注模块(102),用于问句词性标注,采用词性标注的工具将切分好的问句标注词性,以便在问题分类时依据词性判断问题的类型;
所述问题理解模块(2)包含问题分类模块(201)和主述位切分模块(202),所述问题分类模块(201),用于对问句进行分类,将问句分成时间、地点、人物、数量、原因、方法、定义、程度八大类,通过识别问句的疑问词语,对问题进行分类;所述主述位切分模块(202)对问句切分主述位,并识别是缺少主位还是缺少述位,主位是指话语的已知信息,述位是指话语的未知信息,是对主位的陈述;所述主位分成单项主位、复项主位和句项主位,句子或者话语的主位内部未含有主位述位结构时,主位是一独立的整体,称为单项主位,提取句子中的名词词组、副词词组或者介词短语来作为单项主位;复项主位指由两个或两个以上的成分共同构成的主位,复项主位含有三类成分:语篇成分、人际成分和主题成分,语篇成分由语句中的连续成分,人际成分提取语句中的人物称呼,主题成分是语句所要描述的主题和对象,三类成分组成复项主位;句项主位是由一个小句形成一个主位,提取含有主从句结构中的从句部分来作为主位,或由动词的非谓语形式构成的短语来作为句项主位;
所述信息检索模块(3)包含答案检索模块(301)和相似度排序模块(302);所述答案检索模块(301)根据问句的主述位和答案语料的主述位进行相似度计算,根据问句的主述位以及答案语料的主述位进行计算,采用基于统计的VSM相似度计算,将问句去除疑问词语,并判断剩下的成分是在主位还是述位,并与答案语料的主述位分别都用n维的词向量T=(T1,T2,...,Tn)表示,T表示某个文本向量,Ti表示某个特征值,向量中的特征值通过统计的方法得到,再根据余弦公式,则问句成分T和答案语料的主位或述位T’的相似度为
引入权值ωi,赋予某些关键的特征值较高的权值进行计算,公式为
计算后得到问句剩下的成分与答案语料主位的相似度以及述位的相似度这一结果集,相似度排序模块(302)将计算的结果集进行由大到小排序,提取最相关的答案语料;
所述答案抽取模块(4)包含答案成分抽取模块(401)和答案合成模块(402);答案成分抽取模块(401)对检索出的答案进行处理,根据问题的类别以及缺失的成分,抽取出检索答案中的相关成分,是一句话或者是几句话,或者是几个词或者短语对于那些问时间地点的问题,或者是用很短的语句来回答,而对于询问原因、事件的问题需要较长的语句才能回答,答案成分抽取模块(401)根据问题的类别以及问句中缺失的成分从答案语料抽取出需要的成分,答案合成模块(402)将答案成分与用户的问句进行合成,生成最终答案;
所述知识库模块(5)包含知识爬取模块(501)、小句切分模块(502)、主述位切分模块(503)、数据存储模块(504);知识爬取模块(501)通过网络爬虫,爬取文章或者新闻作为基础语料;小句切分模块(502)将爬取到的文章材料进行切分,通过标点符号以及句子的语法结构来切分语句,将大段文章切分成含有明确意义的小句;主述位切分模块(503)将具有明确意义的小句进一步进行切分,依照主述位的切分方法,将小句分为主位和述位的结构;数据存储模块(504)将最后处理的结果存储在数据库中,以便进行信息检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610156326.2A CN105824933B (zh) | 2016-03-18 | 2016-03-18 | 基于主述位的自动问答系统及其实现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610156326.2A CN105824933B (zh) | 2016-03-18 | 2016-03-18 | 基于主述位的自动问答系统及其实现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105824933A CN105824933A (zh) | 2016-08-03 |
CN105824933B true CN105824933B (zh) | 2019-02-26 |
Family
ID=56524040
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610156326.2A Active CN105824933B (zh) | 2016-03-18 | 2016-03-18 | 基于主述位的自动问答系统及其实现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824933B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108228637B (zh) * | 2016-12-21 | 2020-09-04 | 中国电信股份有限公司 | 自然语言客户自动应答方法和系统 |
CN107391614A (zh) * | 2017-07-04 | 2017-11-24 | 重庆智慧思特大数据有限公司 | 一种基于wmd的中文问答匹配方法 |
CN107729510B (zh) * | 2017-10-23 | 2021-07-06 | 深圳市前海众兴科研有限公司 | 信息交互方法、信息交互终端及存储介质 |
CN108170780A (zh) * | 2017-12-26 | 2018-06-15 | 北京邦邦共赢网络科技有限公司 | 一种自助问答的问题匹配方法及装置 |
CN108280218A (zh) * | 2018-02-07 | 2018-07-13 | 逸途(北京)科技有限公司 | 一种基于检索和生产混合问答的流程系统 |
CN108763356A (zh) * | 2018-05-16 | 2018-11-06 | 深圳市三宝创新智能有限公司 | 一种基于相似句搜索的智能机器人闲聊系统及方法 |
CN108763355B (zh) * | 2018-05-16 | 2021-12-17 | 深圳市三宝创新智能有限公司 | 一种基于用户的智能机器人交互数据处理系统及方法 |
CN108920603B (zh) * | 2018-06-28 | 2021-12-21 | 厦门快商通信息技术有限公司 | 一种基于客服机器模型的客服引导方法 |
CN109033221A (zh) * | 2018-06-29 | 2018-12-18 | 上海银赛计算机科技有限公司 | 答案生成方法、装置及服务器 |
CN109543020B (zh) * | 2018-11-27 | 2022-11-04 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN109710744B (zh) * | 2018-12-28 | 2021-04-06 | 合肥讯飞数码科技有限公司 | 一种数据匹配方法、装置、设备及存储介质 |
CN109885672B (zh) * | 2019-03-04 | 2020-10-30 | 中国科学院软件研究所 | 一种面向在线教育的问答式智能检索系统及方法 |
CN109977214A (zh) * | 2019-03-29 | 2019-07-05 | 沈阳师范大学 | 一种中小学教育的在线疑难问题解答推荐互动方法及系统 |
CN110110066B (zh) * | 2019-05-09 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 一种交互数据处理方法、装置以及计算机可读存储介质 |
CN110334080B (zh) * | 2019-06-26 | 2020-05-12 | 广州探迹科技有限公司 | 一种实现自主学习的知识库构建方法 |
CN110321420B (zh) * | 2019-07-04 | 2023-07-18 | 河海大学常州校区 | 基于问句生成的智能问答系统和方法 |
CN110727765B (zh) * | 2019-10-10 | 2021-12-07 | 合肥工业大学 | 基于多注意力机制的问题分类方法、系统及存储介质 |
CN111190998B (zh) * | 2019-12-10 | 2024-01-09 | 上海八斗智能技术有限公司 | 一种基于混合模型的问答机器人系统及问答机器人 |
CN111611364B (zh) * | 2020-05-15 | 2023-08-15 | 北京百度网讯科技有限公司 | 一种智能应答方法、装置、设备及存储介质 |
CN113468300B (zh) * | 2021-05-28 | 2024-01-23 | 南京城市职业学院(南京开放大学) | 一种基于微信交互的智能消息处理系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
CN104572618A (zh) * | 2014-12-31 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种问答系统中基于语义的相似度分析方法、系统及应用 |
-
2016
- 2016-03-18 CN CN201610156326.2A patent/CN105824933B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101373532A (zh) * | 2008-07-10 | 2009-02-25 | 昆明理工大学 | 旅游领域faq中文问答系统实现方法 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
CN104572618A (zh) * | 2014-12-31 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种问答系统中基于语义的相似度分析方法、系统及应用 |
Non-Patent Citations (1)
Title |
---|
简述功能语法的主位述位理论;郭皓;《外语教学与研究》;20080714;第16卷;论文第2-4节 |
Also Published As
Publication number | Publication date |
---|---|
CN105824933A (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105824933B (zh) | 基于主述位的自动问答系统及其实现方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN110309393B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN105824959B (zh) | 舆情监控方法及系统 | |
El-Haj et al. | KALIMAT a multipurpose Arabic Corpus | |
Abujar et al. | A heuristic approach of text summarization for Bengali documentation | |
CN104484374B (zh) | 一种创建网络百科词条的方法及装置 | |
CN111950273A (zh) | 基于情感信息抽取分析的网络舆情突发事件自动识别方法 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN108681574A (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN109344187B (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN110263319A (zh) | 一种基于网页文本的学者观点抽取方法 | |
CN106682149A (zh) | 一种基于元搜索引擎的标签自动生成方法 | |
CN107967290A (zh) | 一种基于海量科研资料的知识图谱网络构建方法及系统、介质 | |
CN108536673B (zh) | 新闻事件抽取方法及装置 | |
CN105989058A (zh) | 一种汉语新闻摘要生成系统及方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
Widyantoro et al. | Citation sentence identification and classification for related work summarization | |
CN103823868B (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
Gopan et al. | Comparative study on different approaches in keyword extraction | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
Ahmed et al. | Question analysis for Arabic question answering systems | |
Al-Ayyoub et al. | Framework for Affective News Analysis of Arabic News: 2014 Gaza Attacks Case Study. | |
CN112380848A (zh) | 文本生成方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |