CN109800284B - 一种面向任务的非结构化信息智能问答系统构建方法 - Google Patents

一种面向任务的非结构化信息智能问答系统构建方法 Download PDF

Info

Publication number
CN109800284B
CN109800284B CN201811558102.XA CN201811558102A CN109800284B CN 109800284 B CN109800284 B CN 109800284B CN 201811558102 A CN201811558102 A CN 201811558102A CN 109800284 B CN109800284 B CN 109800284B
Authority
CN
China
Prior art keywords
query
word
sentence
type
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811558102.XA
Other languages
English (en)
Other versions
CN109800284A (zh
Inventor
丁蔚然
姜晓夏
葛唯益
王羽
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201811558102.XA priority Critical patent/CN109800284B/zh
Publication of CN109800284A publication Critical patent/CN109800284A/zh
Application granted granted Critical
Publication of CN109800284B publication Critical patent/CN109800284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向任务的非结构化信息智能问答系统构建方法,该方法通过对用户请求进行自然语言处理,识别请求语句的关键词语和句式,匹配所属任务类型,生成查询请求表达式,根据不同的任务类型制定不同的搜索条件和排序条件。定义任务映射到三类期待答案形式:天气型,时间型,数字型,这三类问题可以直接对用户的问题进行精准的回答。系统在句子和段落索引中查询符合条件的候选结果。候选的句子或段落按照命名实体识别结果筛选符合任务期待答案类型的词语,筛选出包含目标类型短语的结果,标记为目标答案并将其高亮显示;不含目标类型短语的结果排名靠后。最后将此答案输出。

Description

一种面向任务的非结构化信息智能问答系统构建方法
技术领域
本发明涉及中文自然语言处理技术和信息搜索技术领域,具体涉及一种面向任务的非结构化信息智能问答系统构建方法。
背景技术
现在全球各类信息资源的自由共享使得多源异构信息源源不断的生成,其数量巨大、内容复杂多样,且信息质量良莠不齐。在这样复杂环境下信息空间呈现出诸多的不确定性,信息的查询还是通过传统的关键字查询信息,较为复杂的需求往往没有办法在一次查询中完成,需要经过几轮查询才能获取到关键信息。对能够准确理解自然语言问句的问答系统的需求越来越迫切,通用的问答系统所面临的问题远远没有解决,学术界和产业界都仍在探索阶段。
基于布尔模型的搜索引擎技术在民用领域已经发展得非常成熟,例如百度、谷歌的通用搜索引擎已被广泛应用。得益于维基百科、百度百科等大规模的知识库,大型搜索引擎公司已经可以基于知识图谱或QA对直接回答一部分问题,完成了问答系统的部分功能,但是该技术需要事先构建领域内的知识图谱和问答语料才能发挥出作用。然而,绝大部分数据是非结构化的异构信息,碎片化的数据流整合到通用的知识库需要时间,如果可以直接针对某类问题从海量的语料中抽取出期望答案对于信息搜索具有实际意义。目前通过自然语言处理的技术从非结构化信息中提取期望答案的技术研究较少。已有的智能问答研究多数是基于知识图谱的结构化问题回答,将非结构化文本进行开放式信息抽取生成知识图谱,没有深入基于非结构化文本的问答系统研究。
发明内容
针对信息搜索领域所存在的问题和不足,本发明提供了一种面向任务的非结构化信息智能问答系统构建方法,包括如下步骤:
步骤1、构建后台索引:对非结构化的文本按单句和段落进行切分,段落级索引的字段包括段落ID、段落内容、段落所在文章中的位置、段落所在文章ID;句子级索引的字段包括句子ID、句子内容、句子所在段落位置、句子所在段落ID、该段落在文章中的位置、句子所在文章ID;对句子和段落分别建立二级全文索引,为用户查询提供检索支持;
步骤2、对用户问题请求的相关操作分别采用Hanlp和StanfordNLP工具包进行中文分词和词性标注,可以得到问题请求的词语集合以及各词的类型,例如是否为实体名词等。在系统构建之前,为了对用户的请求进行任务分类需提前构建提示词表,用于对用户问题请求进行基于词语规则的初归类,只要用户的请求中出现了词表中的词汇,同时句法分析结果符合此类别要求,则将问题请求归为该类问题。系统根据词表判断用户请求可能的任务类型后,再对用户的问题请求通过StanfordNLP工具包进行句法分析以获取句法特征,匹配期望答案类型,生成查询请求表达式,包含了查询的关键词以及期望答案的类型;
步骤3、对于每一项任务,配置任务拓展词典以提高任务查询的查全率,词典包含了用户请求中常见词的同义词、近义词、领域相关词汇以及词权重配置。根据问句的任务类型、分词和词性标注结果,生成查询请求表达式,使用任务拓展词典对查询请求的关键词进行拓展与组合,分别转换成句子级和段落级索引查找条件和兜底查询条件,依据不同的任务调整查询关键词的权重和排序要求;
步骤4、优先在句子级索引中查找,如果没有查询到结果或者结果数过少,则将查询请求在段落级索引中再次查找,如果还是没有足够的结果数,则使用兜底查询条件进行二次查找,最终生成候选结果集;
步骤5、将候选结果集按照任务对应的排序策略进行个性化排序,默认按相关度得分进行排序,并归一化相关度得分值,得分在0至1之间。取相关度得分最高的三个结果作为下一步的候选答案;如果候选结果相关度差距小于设定的阈值(阈值取0.1),则按照时间排序,取距离当前时间最近的三个结果为下一步的候选答案;
步骤6、将候选答案按标点符号进行短句切分,统计检索关键词所在位置,包括实体词和属性词,基于任务的期望答案进行命名实体识别,统计关键词与期望答案类型相符的短语之间距离,依据设定窗口大小过滤期望答案类型短语与检索关键词之间距离过大的结果,窗口大小默认可设为2;
步骤7、找到距离属性词最近的且符合期望答案类型的位置标记为可能的问题答案,并输出结果。
步骤2中,用户的请求期望答案类型定义为三类:天气型,时间型,数字型;每一类用户请求都有对应的提示词集合,例如,天气类对应的提示词有:天气、下雨、下雪、温度等;数字型对应的提示词有:多长、多高、多少、长度等。提示词表是根据用户请求中分词结果集合高频词统计得出,也可以手动对词表进行扩充。如果用户问题请求的分词和句法分析结果中包括了提示词表中的词则将该问题分入该类别,句法分析得到的句法特征包括句法构成树及句法依赖图,具体做法是设置实体名词之前或之后在特定窗口长度包含词的词性、实体类型作为中心词的特征标准,窗口长度可设置为2或3。识别问句中两个实体名词为中心词,中心词在句法构成树中最短路径包含的词性标签及其长度和在句法依赖图中的依赖路径及其长度,句法符合两个实体名词的中心词在句法构成树中最短路径包含的词性标签,即将此用户的问题请求进行归类处理。
步骤3中,优先对句子级索引进行查询,如果查不到或者查询到结果个数不满三个再去查询段落级索引;句子级索引查询条件必须用逻辑表达式连接各查询关键词,步骤2中得到的分词结果需根据提示词表进行拓展,各查询关键词之间用与连接,提示词之间用或连接;对于兜底查询条件,各查询关键词之间用或连接,提示词之间也使用或连接,关键词设置两倍于普通词语的权重;排序策略必须根据任务的要求进行调整,能够设置两个以上排序字段,并设置优先级。
步骤4中,首先根据句子查询条件去查询,必须包含所有的关键词,返回的查询结果数量多于三个则直接返回结果;如果查询的结果小于三个则需要从段落级索引中进行查询补齐结果数量;如果在句子级和段落级索引都没有查找到结果,则启用兜底查询条件进行查找。
步骤5中,统计关键词e在步骤1原始的非结构化文本中出现的频次,记为tfe,N代表海量新闻语料中文档的数量,dfe代表包含实体e的文档个数,计算该关键词的词频-逆文本频率指数,记为TF-IDF,则e的TF-IDF值TFIDFe由以下公式计算得到:
Figure GDA0001970542520000031
将TFIDFe归一化为0~1之间的数值作为该项特征;
对于多关键词的查询语句,采用基于TF-IDF的复合评分计算方法计算其分值score(q,d),由以下公式计算得到该值:
Figure GDA0001970542520000032
其中,coord(q,d)为查询语句q在文档d中出现的频率,查询语句q由多个查询词t组成;queryNorm(q)为归一化的参数,与文档的相关度无关;tf(t in d)为词t在文档d中出现的频率,idf(t)为词t在整个文档集合(海量新闻语料)中的逆文档频率;
t.getBoost为词t的加权值,默认值为1.0;norm(t,d)为长度相关的加权因子。
步骤6中,对于步骤5已经查找到的候选答案,按答案中出现的逗号、句号、分号进行分割,对短句使用StanfordNLP工具包进行命名实体识别,识别出句中的人名、时间、数字、地名,并标注与答案类型相符的词语位置,如果没有与期望答案类型相符的词语则直接过滤这个短句,统计关键词与期望答案类型相符的短语之间距离,设定窗口大小,过滤期望答案类型短语与检索关键词之间距离过大的结果。窗口大小可设为2,过滤非名词动词的修饰词后进行窗口计算(属性关键词与期望答案类型相符的词语越近,认为其是正确答案的可能性就越大)。
本发明与现有技术相比,显著优点为:1)无需构建知识图谱,仅需提供任务类型匹配规则和查询组成方式即可使用;2)返回搜索结果更加精确,减少了人工筛选关键信息的工作;3)针对任务里天气型,时间型,数字型的信息请求提供了一种高效便捷的问答机制。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明信息索引和信息搜索的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明的技术方案步骤如下:
步骤(1)、构建后台索引:对非结构化的文本按单句和段落进行切分,段落级索引的字段包括段落ID、段落内容、段落所在文章中的位置、段落所在文章ID;句子级索引的字段包括句子ID、句子内容、句子所在段落位置、句子所在段落ID、该段落在文章中的位置、句子所在文章ID;对句子和段落分别建立二级全文索引,为用户查询提供检索支持;
步骤(2)、对用户问题请求的相关操作分别采用Hanlp和StanfordNLP工具包进行中文分词和词性标注,可以得到问题请求的词语集合以及各词的类型,例如是否为实体名词等。在系统构建之前,为了对用户的请求进行任务分类需提前构建提示词表,用于对用户问题请求进行基于词语规则的初归类,只要用户的请求中出现了词表中的词汇,同时句法分析结果符合此类别要求,则将问题请求归为该类问题。系统根据提示词表判断用户请求可能的任务类型后,再对用户的问题请求通过LTP工具包进行句法分析以获取句法特征,匹配期望答案类型,生成查询请求表达式,包含了查询的关键词以及期望答案的类型;
步骤(3)、对于每一项任务,配置任务拓展词典以提高任务查询的查全率,词典包含了用户请求中常见词的同义词、近义词、领域相关词汇以及词权重配置。根据问句的任务类型、分词和词性标注结果,生成查询请求表达式,使用任务拓展词典对查询请求的关键词进行拓展与组合,分别转换成句子级和段落级索引查找条件和兜底查询条件,依据不同的任务调整查询关键词的权重和排序要求;
步骤(4)、优先在句子级索引中查找,如果没有查询到结果或者结果数过少,则将查询请求在段落级索引中再次查找,如果还是没有足够的结果数,则使用兜底查询条件进行二次查找,最终生成候选结果集;
步骤(5)、将候选结果集按照任务对应的排序策略进行个性化排序,默认按相关度得分进行排序,并归一化相关度得分值,得分在0至1之间。取相关度得分最高的三个结果作为下一步的候选答案;如果候选结果相关度差距小于设定的阈值(阈值取0.1),则按照时间排序,取距离当前时间最近的三个结果为下一步的候选答案;
步骤(6)、将候选答案按标点符号进行短句切分,统计检索关键词所在位置,包括实体词和属性词,基于任务的期望答案进行命名实体识别,统计关键词与期望答案类型相符的短语之间距离,依据设定窗口大小过滤期望答案类型短语与检索关键词之间距离过大的结果,窗口大小默认可设为2;
步骤(7)、找到距离属性词最近的且符合期望答案类型的位置标记为可能的问题答案,并输出结果。
本发明步骤(2)中,用户的请求期望答案类型定义为三类:天气型,时间型,数字型;每一类用户请求都有对应的提示词集合,例如,天气类对应的提示词有:天气、下雨、下雪、温度等;数字型对应的提示词有:多长、多高、多少、长度等。提示词表是根据用户请求中分词结果集合高频词统计得出,也可以手动对词表进行扩充。如果用户问题请求的分词和句法分析结果中包括了提示词表中的词则将该问题分入该类别,句法分析得到的句法特征包括句法构成树及句法依赖图,具体做法是设置实体名词之前或之后在特定窗口长度包含词的词性、实体类型作为中心词的特征标准,窗口长度可设置为2或3。识别问句中两个实体名词为中心词,中心词在句法构成树中最短路径包含的词性标签及其长度和在句法依赖图中的依赖路径及其长度,句法符合两个实体名词的中心词在句法构成树中最短路径包含的词性标签,即将此用户的问题请求进行归类处理。
本发明步骤(3)中,优先对句子级索引进行查询,如果查不到或者查询到结果个数不满三个再去查询段落级索引;句子级索引查询条件必须用逻辑表达式连接各查询关键词,步骤2中得到的分词结果需根据提示词列表进行拓展,各查询关键词之间用与连接,提示词之间用或连接;对于兜底查询条件,各查询关键词之间用或连接,提示词之间也使用或连接,关键词设置两倍于普通词语的权重;排序策略必须根据任务的要求进行调整,能够设置两个以上排序字段,并设置优先级。
本发明步骤(4)中,首先根据句子查询条件去查询,必须包含所有的关键词,返回的查询结果数量多于三个则直接返回结果;如果查询的结果小于三个则需要从段落级索引中进行查询补齐结果数量;如果在句子级和段落级索引都没有查找到结果,则启用兜底查询条件进行查找。
本发明步骤(5)中,统计关键词e在原始的非结构化文本中出现的频次,记为tfe,N代表海量新闻语料中文档的数量,dfe代表包含实体e的文档个数,计算该关键词的词频-逆文本频率指数,记为TF-IDF,则e的TF-IDF值TFIDFe由以下公式计算得到:
Figure GDA0001970542520000061
将TFIDFe归一化为0~1之间的数值作为该项特征;
对于多关键词的查询语句,采用基于TF-IDF的复合评分计算方法,由以下公式计算得到该值:
Figure GDA0001970542520000062
其中,coord(q,d)为查询语句q在文档d中出现的频率,查询语句q由多个查询词t组成;queryNorm(q)为归一化的参数,与文档的相关度无关;tf(t in d)为词t在文档d中出现的频率,idf(t)为词t在整个文档集合中的逆文档频率;t.getBoost为词t的加权值,默认值为1.0;norm(t,d)为长度相关的加权因子。
本发明步骤(6)中,对于上一步已经查找到的候选答案,按答案中出现的逗号、句号、分号进行分割,对短句使用StanfordNLP工具包进行命名实体识别,识别出句中的人名、时间、数字、地名,并标注与答案类型相符的词语位置,如果没有与期望答案类型相符的词语则直接过滤这个短句,统计关键词与期望答案类型相符的短语之间距离,设定窗口大小,过滤期望答案类型短语与检索关键词之间距离过大的结果。窗口大小可设为2,过滤非名词动词的修饰词后进行窗口计算(属性关键词与期望答案类型相符的词语越近,认为其是正确答案的可能性就越大)。
实施例
结合图1,本发明实现了面向任务的非结构化信息智能问答系统,以任务类型“地理信息导航”为例,假设用户此时在系统中输入问题:“岛屿A的面积有多大?”,用户期望的答案是一个确定的数字,如果以传统的检索模式,用户需要依次点开结果链接,在段落中寻找答案。本发明的具体求解步骤如下:
步骤1:对文本进行预处理,分别按单句和段落进行切分,对文本采用Lucene或Solr搜索引擎建立索引数据,句子索引字段的定义如表1所示。
表1
字段名 字段含义
senID 句子ID
senContent 句子内容
senInParaLocation 该句子在段落中的位置(属于其所在段落的第几句)
senParaID 该局所在段落ID
paraInDocLocation 所在段落在文章中的位置
senDocID 句子所在文章ID
段落索引字段的定义如表2所示:
表2
Figure GDA0001970542520000071
Figure GDA0001970542520000081
步骤2:对用户的问题进行分词和句法分析,将问句中的有效成分提取出来,对问句进行任务类型识别和查询请求生成策略匹配;
采用Hanlp工具对用户的问句进行分词和词性识别,使用Stanford NLP对该问句进行句法解析,若句式和关键词词性都和任务类型特征匹配则可以按模板生成查询请求;
分词结果为:(岛屿A面积多大)。
词性识别结果为:(岛屿A/NR的/DEG面积/NN有/VE多大/AD)。
定义数字型问题需包含的提示词表为{面积、体积、长度、宽度、高度、深度},因该问题的分词结果中包含提示词且句法符合两个实体的中心词在句法构成树中最短路径包含的词性标签,所以将该问题归类为数字型问题。
在这一步骤可以确定问题类别为数字型,中心实体为“岛屿A”,提示词为“面积”,根据拓展词表还可以进一步拓展提示词,“面积”的拓展词有“占地”;
步骤3:根据问句的任务类型、分词结果、以及查询请求生成策略生成该问题的查询请求,依据不同的任务调整查询关键词的权重和排序要求。在这里假设任务的背景为“地理信息导航”,根据上述结果填写查询请求表达式:
<检索任务>
<任务属性>
……
<任务类型>地理信息导航</任务类型>
</任务属性>
<信息需求列表>
<需求描述>
<ID>XXMS001</ID>
<问题类别>数字型</问题类别>
<中心实体>岛屿A</中心实体>
<提示词>面积</提示词>
<拓展词>占地</拓展词>
<排序策略>相关度+时间</排序策略>
</需求描述>
</目标信息列表>
</检索任务>
步骤4:将该查询请求XML解析为搜索引擎的查询语句分别在句子级索引和段落级索引里查询。
句子级查询语句为:
q=senContent:(岛屿A)AND senContent:(面积OR占地)
sort=(score desc,senDocID asc)
段落级查询语句为:
q=paraContent:(岛屿A)AND senContent:(面积OR占地)
sort=(score desc,paraDocID asc)
步骤5:将候选结果集默认按照相关度得分进行过滤与排序,若该问题匹配了任务类型则按照该任务的排序策略进行过滤与排序。在本例中,任务类型为前出打击,对应的排序策略为相关度倒序,在相关度得分非常接近时,排序策略为时间倒序。
这里设定查找到的第一条结果为:“岛屿A地理位置为东经123度至124度34分、北纬25度40分至26度,由岛屿A、黄尾岛、赤尾岛、南小岛、北小岛、大南小岛、大北小岛和飞濑岛等,其中岛屿A的面积为4.3平方公里,是群岛中最大的岛屿。”
步骤6:将候选答案按标点符号进行短句切分,统计关键词所在位置,包括实体词和属性词等,基于任务的期望答案进行分词和词性标注,实现命名实体识别。上述查找到的句子按逗号分隔为六个短句,逐个遍历这六个短句,既满足句中“岛屿A”“面积”关键词,又存在数字类型的短语“4.3平方公里”,因此该短句会加入到候选列表中。
当结果数过少时,系统进行二次遍历,相比第一次遍历较为严格(仅仅把符合限制条件的短句加入到结果列表中),第二遍遍历放宽了限制,把包含了最多关键词的短句识别出来,把该句子放入到结果列表当中,并标注出短句的序列位置。
步骤7:找到距离属性词最近的且符合期望答案类型的位置标记为可能的问题答案,并输出结果。本例中,属性词为“面积”,期望答案类型为数字,则将“4.3平方公里”标记为最终的答案输出。
由上可知,本发明可以为任务提供一种简单准确的信息检索方式,操作简单,运用灵活,可满足对天气型,时间型,数字型等最常见的信息需求,改善了原来现有信息系统必须人工整理信息入库,无法充分利用非结构化数据的问题。
本发明提供了一种面向任务的非结构化信息智能问答系统构建方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (6)

1.一种面向任务的非结构化信息智能问答系统构建方法,其特征在于,包括如下步骤:
步骤1、构建后台索引:对非结构化的文本按单句和段落进行切分,段落级索引的字段包括段落ID、段落内容、段落所在文章中的位置、段落所在文章ID;句子级索引的字段包括句子ID、句子内容、句子所在段落位置、句子所在段落ID、该段落在文章中的位置、句子所在文章ID;对句子和段落分别建立二级全文索引,为用户查询提供检索支持;
步骤2、对用户问题请求的相关操作分别采用Hanlp和StanfordNLP工具包进行中文分词和词性标注,得到问题请求的词语集合以及各词的类型;
在系统构建之前,构建提示词表,用于对用户问题请求进行基于词语规则的初归类,只要用户的请求中出现了词表中的词汇,同时句法分析结果符合此类别要求,则将问题请求归为该类问题,系统根据提示词表判断用户请求可能的任务类型后,再对用户的问题请求通过StanfordNLP工具包进行句法分析以获取句法特征,匹配期望答案类型,生成查询请求表达式,查询请求表达式包含了查询的关键词以及期望答案的类型;
步骤3、对于每一项任务,配置任务拓展词典,词典包含了用户请求中常见词的同义词、近义词、领域相关词汇以及词权重配置;根据问句的任务类型、分词和词性标注结果,生成查询请求表达式,使用任务拓展词典对查询请求的关键词进行拓展与组合,分别转换成句子级和段落级索引查找条件和兜底查询条件,依据不同的任务调整查询关键词的权重和排序要求;
步骤4、优先在句子级索引中查找,如果没有查询到结果或者结果数过少,则将查询请求在段落级索引中再次查找,如果还是没有足够的结果数,则使用兜底查询条件进行二次查找,最终生成候选结果集;
步骤5、将候选结果集按照任务对应的排序策略进行个性化排序,默认按相关度得分进行排序,并归一化相关度得分值,得分在0至1之间,取相关度得分最高的三个结果作为下一步的候选答案;如果候选结果相关度差距小于设定的阈值,则按照时间排序,取距离当前时间最近的三个结果为下一步的候选答案;
步骤6、将候选答案按标点符号进行短句切分,统计检索关键词所在位置,包括实体词和属性词,基于任务的期望答案进行命名实体识别,统计关键词与期望答案类型相符的短语之间距离,依据设定窗口大小过滤期望答案类型短语与检索关键词之间距离过大的结果;
步骤7、找到距离属性词最近的且符合期望答案类型的位置标记为可能的问题答案,并输出结果。
2.根据权利要求1所述的方法,其特征在于,步骤2中,用户的请求期望答案类型定义为三类:天气型,时间型,数字型;每一类用户请求都有对应的提示词表,提示词表是根据用户请求中分词结果集合高频词统计得出,或者手动对词表进行扩充;如果用户问题请求的分词和句法分析结果中包括了提示词表中的词则将该问题分入该类别,句法分析得到的句法特征包括句法构成树及句法依赖图,具体做法是设置实体名词之前或之后在特定窗口长度包含词的词性、实体类型作为中心词的特征标准,识别问句中两个实体名词为中心词,通过句法分析得到中心词在句法构成树中最短路径包含的词性标签及其长度和在句法依赖图中的依赖路径及其长度作为问句的句法特征,特征符合提示词匹配到的类型的句法特征,即将此用户的问题请求进行归类处理。
3.根据权利要求2所述的方法,其特征在于,步骤4中,优先对句子级索引进行查询,如果查不到或者查询到结果个数不满三个再去查询段落级索引;句子级索引查询条件必须用逻辑表达式连接各查询关键词,步骤2中得到的分词结果需根据提示词表进行拓展,各查询关键词之间用与连接,提示词之间用或连接;对于兜底查询条件,各查询关键词之间用或连接,提示词之间也使用或连接,关键词设置两倍于普通词语的权重;排序策略必须根据任务的要求进行调整,能够设置两个以上排序字段,并设置优先级。
4.根据权利要求3所述的方法,其特征在于,步骤4中,首先根据句子查询条件去查询,必须包含所有的关键词,返回的查询结果数量多于三个则直接返回结果;如果查询的结果小于三个则需要从段落级索引中进行查询补齐结果数量;如果在句子级和段落级索引都没有查找到结果,则启用兜底查询条件进行查找。
5.根据权利要求4所述的方法,其特征在于,步骤5中,统计关键词e在原始的非结构化文本中出现的频次,记为tfe,N代表海量新闻语料中文档的数量,dfe代表包含实体e的文档个数,计算该关键词的词频-逆文本频率指数,记为TF-IDF,则e的TF-IDF值TFIDFe由以下公式计算得到:
Figure FDA0002829014590000031
将TFIDFe归一化为0~1之间的数值作为相关度得分值;
对于多关键词的查询语句,采用基于TF-IDF的复合评分计算方法计算其分值score(q,d),由以下公式计算得到该值:
Figure FDA0002829014590000032
其中,coord(q,d)为查询语句q在文档d中出现的频率,查询语句q由多个查询词t组成;queryNorm(q)为归一化的参数,与文档的相关度无关;tf(t in d)为词t在文档d中出现的频率,idf(t)为词t在整个文档集合中的逆文档频率;t.getBoost为词t的加权值;norm(t,d)为长度相关的加权因子。
6.根据权利要求5所述的方法,其特征在于,步骤6中,对于步骤5已经查找到的候选答案,按答案中出现的逗号、句号、分号进行分割,对短句使用StanfordNLP工具包进行命名实体识别,识别出句中的人名、时间、数字、地名,并标注与答案类型相符的词语位置,如果没有与期望答案类型相符的词语则直接过滤这个短句,统计关键词与期望答案类型相符的短语之间距离,设定窗口大小,过滤期望答案类型短语与检索关键词之间距离过大的结果,过滤非名词动词的修饰词后进行窗口计算。
CN201811558102.XA 2018-12-19 2018-12-19 一种面向任务的非结构化信息智能问答系统构建方法 Active CN109800284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811558102.XA CN109800284B (zh) 2018-12-19 2018-12-19 一种面向任务的非结构化信息智能问答系统构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811558102.XA CN109800284B (zh) 2018-12-19 2018-12-19 一种面向任务的非结构化信息智能问答系统构建方法

Publications (2)

Publication Number Publication Date
CN109800284A CN109800284A (zh) 2019-05-24
CN109800284B true CN109800284B (zh) 2021-02-05

Family

ID=66557305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811558102.XA Active CN109800284B (zh) 2018-12-19 2018-12-19 一种面向任务的非结构化信息智能问答系统构建方法

Country Status (1)

Country Link
CN (1) CN109800284B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377907B (zh) * 2019-07-18 2023-09-08 鼎富智能科技有限公司 一种招聘信息标准化方法及装置
CN110555440B (zh) * 2019-09-10 2022-03-22 杭州橙鹰数据技术有限公司 一种事件抽取方法及装置
CN110647584A (zh) * 2019-09-23 2020-01-03 青岛聚好联科技有限公司 一种物联网平台文档数据的管理方法及装置
CN110955761A (zh) * 2019-10-12 2020-04-03 深圳壹账通智能科技有限公司 文书中问答数据获取方法、装置、计算机设备和存储介质
CN110909538B (zh) * 2019-10-14 2024-04-12 深圳价值在线信息科技股份有限公司 问答内容的识别方法、装置、终端设备及介质
CN111008309B (zh) * 2019-12-06 2023-08-08 北京百度网讯科技有限公司 查询方法及装置
CN111190947B (zh) * 2019-12-26 2024-02-23 航天信息股份有限公司企业服务分公司 一种基于反馈的有序分级排序方法
CN111309944B (zh) * 2020-01-20 2023-07-14 同方知网数字出版技术股份有限公司 一种基于图数据库的数字人文搜索方法
CN111414465B (zh) * 2020-03-16 2023-09-01 北京明略软件系统有限公司 基于知识图谱的问答系统中的处理方法和装置
CN111460095B (zh) * 2020-03-17 2023-06-27 北京百度网讯科技有限公司 问答处理方法、装置、电子设备及存储介质
CN112182177A (zh) * 2020-09-25 2021-01-05 中国建设银行股份有限公司 一种用户问题处理方法、装置、电子设备及存储介质
CN112232681B (zh) * 2020-10-19 2023-01-31 山东山大鸥玛软件股份有限公司 一种面向计算分析类非选择题的智能评卷方法
CN112749264A (zh) * 2020-12-30 2021-05-04 平安科技(深圳)有限公司 基于智能机器人的问题分发方法、装置、电子设备及存储介质
CN115828893B (zh) * 2022-11-28 2023-11-17 北京海致星图科技有限公司 非结构化文档问答的方法、装置、存储介质和设备
CN116401345A (zh) * 2023-03-09 2023-07-07 北京海致星图科技有限公司 智能问答方法、装置、存储介质和设备
CN116578666B (zh) * 2023-07-12 2023-09-22 拓尔思信息技术股份有限公司 段句位的倒排索引结构设计及其限定运算全文检索的方法
CN117743556B (zh) * 2024-02-07 2024-04-16 创意信息技术股份有限公司 一种基于知识库的多轮问答意图识别方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN106796594A (zh) * 2014-08-26 2017-05-31 微软技术许可有限责任公司 从句子生成高级别问题
CN107729392A (zh) * 2017-09-19 2018-02-23 广州市妇女儿童医疗中心 文本结构化方法、装置、系统和非易失性存储介质
CN107784052A (zh) * 2016-12-28 2018-03-09 平安科技(深圳)有限公司 一种提示语句生成方法和装置
CN108304437A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 一种自动问答方法、装置及存储介质
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108959552A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问答类查询语句的识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424344B2 (en) * 2014-05-07 2016-08-23 Bank Of America Corporation Method and apparatus for natural language search for variables
US9916377B2 (en) * 2015-07-02 2018-03-13 International Business Machines Corporation Log-aided automatic query expansion approach based on topic modeling

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620596A (zh) * 2008-06-30 2010-01-06 东北大学 一种面向查询的多文档自动摘要方法
CN106796594A (zh) * 2014-08-26 2017-05-31 微软技术许可有限责任公司 从句子生成高级别问题
CN107784052A (zh) * 2016-12-28 2018-03-09 平安科技(深圳)有限公司 一种提示语句生成方法和装置
CN107729392A (zh) * 2017-09-19 2018-02-23 广州市妇女儿童医疗中心 文本结构化方法、装置、系统和非易失性存储介质
CN108304437A (zh) * 2017-09-25 2018-07-20 腾讯科技(深圳)有限公司 一种自动问答方法、装置及存储介质
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质
CN108959552A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 问答类查询语句的识别方法、装置、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
A Hybrid Question Answering System based on Information Retrieval and Answer Validation;Partha Pakray et al;《Clef Labs & Workshop. DBLP》;20111231;第1-16页 *
CDQA: AN ONTOLOGY-BASED QUESTION ANSWERING SYSTEM FOR CHINESE DELICACY;Wenke Yin et al;《2014 IEEE 3rd International Conference on Cloud Computing and Intelligence Systems 》;20150806;第1-7页 *
Golden Retriever: Question Retrieval System;Hamman W.Samuel et al;《2015 International Conference on Healthcare Informatics 》;20151210;第519-520页 *
基于Solr的企业异构信息搜索平台的设计与实现;丁蔚然;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160515;第2016年卷(第05期);第I138-1553页 *
基于倒排索引的问答系统的设计与实现;齐翌辰 等;《教育教学论坛》;20180831;第2018年卷(第35期);第68-69页 *
非结构化网络空间信息智能搜索与服务研究;乐小虬;《中国优秀博硕士学位论文全文数据库(博士)基础科学辑》;20061215;第2006年卷(第12期);第A008-6页 *

Also Published As

Publication number Publication date
CN109800284A (zh) 2019-05-24

Similar Documents

Publication Publication Date Title
CN109800284B (zh) 一种面向任务的非结构化信息智能问答系统构建方法
CN108763333B (zh) 一种基于社会媒体的事件图谱构建方法
CN110399457B (zh) 一种智能问答方法和系统
CN111143479B (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
KR101173561B1 (ko) 질문 형태 및 도메인 인식 장치 및 그 방법
CN103136352B (zh) 基于双层语义分析的全文检索系统
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN102902806B (zh) 一种利用搜索引擎进行查询扩展的方法及系统
KR101661198B1 (ko) 단문/복문 구조의 자연어 질의에 대한 검색 및 정보 제공 방법 및 시스템
CN109271505A (zh) 一种基于问题答案对的问答系统实现方法
CN108846029B (zh) 基于知识图谱的情报关联分析方法
CN108563773B (zh) 基于知识图谱的法律条文精准搜索排序方法
CN101339551A (zh) 自然语言查询需求扩展设备及其方法
CN110674252A (zh) 一种面向司法领域的高精度语义搜索系统
CN103229223A (zh) 使用多个候选答案评分模型提供问题答案
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN109308321A (zh) 一种知识问答方法、知识问答系统及计算机可读存储介质
CN103229162A (zh) 使用候选答案逻辑综合提供问题答案
CN111522910A (zh) 一种基于文物知识图谱的智能语义检索方法
CN102955848A (zh) 一种基于语义的三维模型检索系统和方法
CN101650729B (zh) 一种Web服务构件库动态构造方法及其服务检索方法
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant