CN114297350A - 一种面向自然语言的城市领域知识模型查询方法和装置 - Google Patents
一种面向自然语言的城市领域知识模型查询方法和装置 Download PDFInfo
- Publication number
- CN114297350A CN114297350A CN202110630148.3A CN202110630148A CN114297350A CN 114297350 A CN114297350 A CN 114297350A CN 202110630148 A CN202110630148 A CN 202110630148A CN 114297350 A CN114297350 A CN 114297350A
- Authority
- CN
- China
- Prior art keywords
- query
- natural language
- matching
- graph
- morpheme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012163 sequencing technique Methods 0.000 claims abstract description 26
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 230000003993 interaction Effects 0.000 claims abstract description 15
- 238000012216 screening Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 19
- 235000019580 granularity Nutrition 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000000877 morphologic effect Effects 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向自然语言的城市领域知识模型查询方法和装置,方法包括:S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合;S200、基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图;S300、将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。本发明利用隐马模型查询和迭代式查询推测用户问句的领域知识模型查询子图,并查询答案反馈给用户,提高了检索的准确性和检索的效率。
Description
技术领域
本发明涉及知识图谱查询领域,具体涉及一种面向自然语言的城市领域知识模型查询方法和装置。
背景技术
支持用户意图发现的面向自然语言的城市领域知识模型查询,旨在通过解析用户问句,发现用户的提问意图,并将用户问句中的词语匹配到城市领域知识模型,生成查询子图检索出问句答案。然而构建面向自然语言的城市领域知识模型查询系统仍然面临两个挑战,一是面向自然语言的城市领域知识模型查询系统准确性问题,首先需要正确地解析用户问句。当用户输入问句出现二义性,即同一个用户输入问句存在多种合理的解析时,前期的解析错误会导致后期的查询错误。其次是问答准确性问题,在正确地解析了用户输入问句后,如何将解析后的问句映射到城市领域知识模型,进而准确地查询出答案面临很大的挑战。二是面向自然语言的城市领域知识模型查询系统的性能问题,问答系统对响应时间有较高的要求,一般要求小于2s,如何高效地查询答案同样面临很大的挑战。
针对上述挑战,目前已有三类相关的研究工作,但每一类工作仍然有不足之处。第一类工作是基于模板的领域知识模型问答方法,这类工作利用预先定义的模板匹配问句进而得到形式化的查询语言,如Tunstall-Pedoe,Abujabal等的研究工作。这类工作过度依赖于问句模板的设计,而面向自然语言的城市领域知识模型查询中问句种类较多、问题类型较多,无法设计完备的问句模板。第二类工作是基于语义解析的领域知识模型问答方法,这类工作通过对自然语言问题进行解析,将其转化为逻辑形式上的查询语句,并在领域知识模型上执行查询答案,如Yih等的研究工作。这类工作对以英文为主的领域知识模型问答较为有效,在中文场景中,当用户输入问句存在二义性时不能保证其解析的准确性,前期的解析错误会导致后期的答案查询错误。第三类是端到端的领域知识模型问答方法,此类方法无需构建查询,从答案直接入手,设计端到端的神经网络模型对候选答案进行排序,如Bordes等的研究工作。这类工作过度依赖于问答对数据训练有监督的问答模型,面向自然语言的城市领域知识模型查询初期存在冷启动问题,在数据量较少的场景下此类方法效果不佳。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种面向自然语言的城市领域知识模型查询方法和装置,实现智慧城市领域知识的快速、精准检索。
为实现上述目的,本发明采用的技术方案如下:
一种面向自然语言的城市领域知识模型查询方法,包括:
S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建所述自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
S200、基于所述词素集合和所述智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合所述自然语言问题的查询子图;
S300、将所述查询子图与预设的模板进行筛选匹配,得到所述自然语言问题的答案,所述预设的模板为基于所述自然语言问题的各类型预设的查询模板。
进一步,如上所述的方法,S100包括:
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出所述自然语言问题中的实体,以及所述自然语言问题的类型;对所述自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;所述自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型;
(2)N-gram算法产生备选词素:对所述词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合;
(3)词素扩展:对所述备选词素集合进行扩展,向所述备选词素集合中加入各备选词素的同义词。
进一步,如上所述的方法,S200包括:
(1)隐马模型查询图生成:将所述词素集合中的词语元素模糊查找所述智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将所述备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合所述备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建所述自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图;
(2)隐马模型查询图排序:基于所述隐马模型查询图,进行路径相似度计算和排序,得到最符合所述自然语言问题的查询子图,所述路径相似度计算包括相关性计算、最短路径和可信度计算。
进一步,如上所述的方法,S200包括:
(1)迭代式查询图生成:选取所述词素集合中的实体元素,生成查询图,选取所述词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至所述查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
(2)迭代式查询图排序:若存在多个查询子图,则抽取所述查询图的特征,依据相似度排序从各查询子图中找出最符合所述自然语言问题的查询子图,抽取的特征包括所述自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及所述查询图中实体数量。
进一步,如上所述的方法,S300包括:
计算所述查询子图中每种类型的元素数量;
基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;
将所述查询子图与所述候选模板进行匹配,确定最符合所述查询子图的模板,得到所述自然语言问题的答案,所述匹配包括节点类型的匹配和图结构的匹配,所述节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
一种面向自然语言的城市领域知识模型查询装置,包括:
构建模块,用于基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建所述自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
生成模块,用于基于所述词素集合和所述智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合所述自然语言问题的查询子图;
查询模块,用于将所述查询子图与预设的模板进行筛选匹配,得到所述自然语言问题的答案,所述预设的模板为基于所述自然语言问题的各类型预设的查询模板。
进一步,如上所述的装置,所述构建模块包括:
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出所述自然语言问题中的实体,以及所述自然语言问题的类型;对所述自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;所述自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型;
(2)N-gram算法产生备选词素:对所述词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合;
(3)词素扩展:对所述备选词素集合进行扩展,向所述备选词素集合中加入各备选词素的同义词。
进一步,如上所述的装置,所述生成模块包括:
(1)隐马模型查询图生成:将所述词素集合中的词语元素模糊查找所述智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将所述备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合所述备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建所述自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图;
(2)隐马模型查询图排序:基于所述隐马模型查询图,进行路径相似度计算和排序,得到最符合所述自然语言问题的查询子图,所述路径相似度计算包括相关性计算、最短路径和可信度计算。
进一步,如上所述的装置,所述生成模块包括:
(1)迭代式查询图生成:选取所述词素集合中的实体元素,生成查询图,选取所述词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至所述查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
(2)迭代式查询图排序:若存在多个查询子图,则抽取所述查询图的特征,依据相似度排序从各查询子图中找出最符合所述自然语言问题的查询子图,抽取的特征包括所述自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及所述查询图中实体数量。
进一步,如上所述的装置,所述查询模块包括:
计算所述查询子图中每种类型的元素数量;
基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;
将所述查询子图与所述候选模板进行匹配,确定最符合所述查询子图的模板,得到所述自然语言问题的答案,所述匹配包括节点类型的匹配和图结构的匹配,所述节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
本发明的有益效果在于:本发明针对智慧城市领域知识模型查询存在冷启动问题,初期缺少查询对数据的问题,利用隐马尔可夫模型推测用户问句的领域知识模型查询子图,并查询答案反馈给用户。针对隐马尔可夫模型查询效率低,查询响应时间较长的问题,使用图数据库管理领域知识模型,并在查询过程中迭代生成领域知识模型查询子图,从而查询答案反馈给用户,提高了检索的准确性和检索的效率。
附图说明
图1为本发明实施例中提供的一种面向自然语言的城市领域知识模型查询方法的流程示意图;
图2为本发明实施例中提供的一种面向自然语言的城市领域知识模型查询方法的框架示意图;
图3为本发明实施例中提供的交互式自然语言解析流程图;
图4为本发明实施例中提供的隐马模型查询图生成流程图;
图5为本发明实施例中提供的隐马模型查询图排序流程图;
图6为本发明实施例中提供的迭代式查询图生成流程图;
图7为本发明实施例中提供的一种面向自然语言的城市领域知识模型查询装置的结构示意图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述。
本发明主要研究了:
1)基于智慧城市领域知识模型的用户输入解析及检索语句生成技术,基于领域知识模型中存储的知识,对用户输入的自然语言问句进行逐层智能解析,自动生成可被计算机执行的知识检索语句;
2)基于交互的增量式用户意图理解与检索路径优化,通过交互迭代,推理用户的意图,从而实现智慧城市领域知识的快速、精准检索。
为达到以上目的,本发明实施例提供了一种面向自然语言的城市领域知识模型查询方法,如图1-2所示,该方法包括:
1、交互式自然语言解析
S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展。
本发明实施例中,对用户输入的自然语言问题进行预处理,进行n-gram组合后,提供一个可视化界面供用户确认最符合检索目标的关键词。之后匹配关键词与城市领域知识模型中的实体,得到词素集合。
图3是交互式自然语言解析流程图,中文自然语言问句解析中存在二义性,即问句中的词语不同组合方式产生不同的语义含义,从而导致中文自然语言问句存在歧义,而现有的语义消歧的方法针对这一问题却不能很好地解决。我们认为用户是中文自然语言问句的提出者,更了解提问的内容。因此针对此问题,提出了基于交互式的自然语言解析。该方法包含三个部分:用户查询主体识别、N-gram算法产生备选词素和词素扩展。
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出自然语言问题中的实体,以及自然语言问题的类型;对自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型。
通过主体识别算法和查询主体词典匹配,识别出用户输入问句中的提问主体,即实体;同时识别出用户输入问句的类型,我们将问句分为六个类型:事实型、列表型、定义型、导航型、解决方案型和原因型。同时对用户输入问句预处理,预处理包含两个部分,一是自然语言问句分词,旨在得到最细粒度的问句切分词语集合,因为用户输入的二义性是由于词语间的不同粒度组合,以最细粒度切分可以保证后文词段生成的完整性。首先对已有的中文短文本分词工具调研,包括jieba分词工具、pkuseg分词工具等。通过在城市领域知识模型中分词粒度对比,发现pkuseg分词工具分词粒度最细,因此本发明采用pkuseg分词工具对用户输入的自然语言问句分词。二是去除停用词,停用词是指中文中的语气助词,如“的”、“了”、“这”等,这些词语在中文中起着连贯语句的作用,无实际的含义。在本发明用户意图发掘的流程中,如不去除停用词将对后文N-gram词语不同粒度组合产生干扰噪声,所以在自然语言分词后对停用词进行去除。停用词以词语集合的形式存储在系统中,为预先设置好的词语集合。
(2)N-gram算法产生备选词素:对词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合。
该部分旨在分词后的问句,以N-gram的方式进行不同粒度的词语组合。在面向自然语言的城市领域知识模型查询中,由于在城市领域知识模型中,由于地名、人名、政策等在表达上存在多种组合方式,每一种组合代表一种新的含义。现有的自然语言处理技术在解决用户输入二义性问题时效果不佳,因此本发明希望通过与用户交互,发掘用户的提问意图。N-gram算法是指词语集合中的内容按照字节进行大小为N的滑动窗口操作,形成了长度是N的字节片段序列。在经过N-gram算法后,系统得到备选词素。
(3)词素扩展:对备选词素集合进行扩展,向备选词素集合中加入各备选词素的同义词。
如图3所示,在解析之后,还可以与用户进行迭代式的交互,让用户选择问句中提问的词语,构建出问句的词语解析集合。与现有的仅通过分词解析中文自然语言问句方法相比,该方法大幅度提高了问句词语解析的准确性。
2、查询图生成与排序
S200、基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图。
本发明实施例中,基于查询图迭代生成的领域知识模型查询方法有两种,第一种包括隐马模型查询图生成和隐马模型查询图排序,第二种包括迭代式查询图生成和迭代式查询图排序。隐马模型查询图是通过隐马尔可夫模型,词素集合映射到智慧城市领域知识模型词素备选序列,通过与用户交互,得到隐马查询图集合。在隐马模型的查询图排序中,通过相似度计算、词素共现等特征和路径计算,查询最符合用户问句的查询图。迭代式查询图是通过迭代式生成方法构建查询图。首先选取主题词、选取链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至生成的查询图中,直到链接元素集合为空,生成查询图集合。在迭代式查询图生成模型中,通过抽取查询图特征,如利用孪生神经网络抽取了查询图中的字符级与原问句的相似度特征、利用BERT抽取了查询图的谓词序列特征与原问句的句子级别相似度特征以及查询图中实体数量等,查询最符合用户问句的查询图。
第一种方法-隐马模型查询图生成:将词素集合中的词语元素模糊查找智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图。
图4是隐马模型查询图生成流程图,该方法将问句解析后的词素集合中的词语元素模糊查找领域知识模型,每个词素集合中的元素产生备选匹配集合,即该词素元素可能匹配的领域知识模型元素集合。将备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,用户问句对应的领域知识模型序列包含在备选匹配词素集合中。备选匹配词素集合中序列的数量往往较大,提出了基于隐马尔可夫模型的备选匹配词素集合推荐。隐马尔可夫模型融合了备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建出用户问句的匹配依赖图,经过与用户交互,得到隐马模型查询图。
形式上,HMM模型是一个五元组。我们对转移概率和发射概率进行设计。转移概率是指当前状态到下一状态的概率。我们基于词语共现的概念定义状态之间的转移。我们采用的是传统信息检索中词语共现的概念,并将其移至RDF知识库。基于三元组的词语共现是指在给定三元组的元素字面量中发现的词语共现。具体含义为:
(1)两个词语literal1和literal2共现于以rdfs:label为标识的元素字面量位置上,且两个词语分别出现在给定三元组的主语和谓语;
(2)两个词语literal1和literal2共现于以rdfs:label为标识的谓语类型元素的字面量位置上和以rdfs:label为标识的概念型元素的表识符位置上,且词语literal2出现在给定三元组的主语所属概念的元素字面量位置上即有转移概率。
发射概率指的是每个状态来看,可观察关键字可以被看作是从与其匹配关键字相关联的状态中发射出来的。例如,词语“工作”是从输入关键字“职业”匹配得到的,因此关键字“职业”可看作是从与词语“工作”相关联的状态中发射出来的。我们利用编辑距离和词向量的加权和计算发射概率。
第一种方法-隐马模型查询图排序:基于隐马模型查询图,进行路径相似度计算和排序,得到最符合自然语言问题的查询子图,路径相似度计算包括相关性计算、最短路径和可信度计算。
图5是隐马模型查询图排序流程图,在得到隐马模型查询图后,通过路径相似度计算,包括相关性计算、最短路径和可信度计算,筛选出与用户中文问句最相似的查询子图,通过模板匹配的方式查询出答案。
第二种方法-迭代式查询图生成:选取词素集合中的实体元素,生成查询图,选取词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
第二种方法-迭代式查询图排序:若存在多个查询子图,则抽取查询图的特征,依据相似度排序从各查询子图中找出最符合自然语言问题的查询子图,抽取的特征包括自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及查询图中实体数量。
图6是迭代式查询图生成流程图,该方法与用户交互得到问句解析的词素集合后,舍弃隐马模型的知识模型元素推荐与排序通过迭代式的方式生成查询图。该方法首先选取主题词语,即解析的词素集合中的实体元素;接着选取链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至生成的查询图中,直到链接元素集合为空,构成完整的查询子图。在生成过程中由于主题词选取的不确定性,可能出现多个查询子图,为此提出了基于特征排序的查询筛选方法,通过抽取查询图的特征找出与用户问句最相似的领域知识模型查询子图,抽取的特征包括用户问句与查询子图字符级别的相似度、句子级别的相似度和查询图中实体的个数。对于字符级别的相似度,采用孪生神经网络抽取,该神经网络是两个共享参数的CNN网络,一侧输入是问句的字符,另一侧输入是查询子图中实体和关系的字符,输出是两个相似度的打分。对于句子级别的相似度,本发明采用预训练模型BERT抽取。输入问用户的原始提问问句和查询子图中实体和关系连接成的句子,输出是两者的相似度得分。最后一个特征为查询图中实体数量,该特征可以看作查询子图的惩罚项,即查询子图中实体的数量越少,该查询子图与用户问句越相似。最后通过线性模型得到该查询子图与用户问句的相似度打分,并将所有的查询子图排序得到最符合中文问句的查询子图。
3、基于统计分析的模板匹配
S300、将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。
本发明实施例中,通过模板匹配,在生成的查询图中查询用户问句的答案反馈给用户。将用户问句分为事实型、定义型、导航型、解决方案型、列表型、原因型六个类型,基于问句类型设计了二十余种模板。通过将查询图与模板匹配,找出最符合该查询图的模板,查询答案反馈给用户。
S300包括:计算查询子图中每种类型的元素数量;基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;将查询子图与候选模板进行匹配,确定最符合查询子图的模板,得到自然语言问题的答案,匹配包括节点类型的匹配和图结构的匹配,节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
基于统计分析的模板匹配分为两个步骤,节点类型的匹配和图结构的匹配。节点类型的匹配是指查询子图中节点元素的类型与模板类型的匹配。通过简单的计数,计算查询子图中每种类型的元素个数,系统可以初步确定查询模板的范围,并将筛选出的查询模板作为候选模板。在候选模板中,有且仅有一个模板符合生成的查询子图,此处本发明采用图结构的匹配方式。因为目前系统解决的模板类型均为简单的图结构(至多包含两个三元组),因此本发明采用广度优先的算法,将查询子图与模板进行筛选匹配,最终得到答案反馈给用户。
采用本发明实施例的方法,针对智慧城市领域知识模型查询存在冷启动问题,初期缺少查询对数据的问题,利用隐马尔可夫模型推测用户问句的领域知识模型查询子图,并查询答案反馈给用户。针对隐马尔可夫模型查询效率低,查询响应时间较长的问题,使用图数据库管理领域知识模型,并在查询过程中迭代生成领域知识模型查询子图,从而查询答案反馈给用户,提高了检索的准确性和检索的效率。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种面向自然语言的城市领域知识模型查询装置,如图7所示,包括:
构建模块100,用于基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
生成模块200,用于基于词素集合和智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合自然语言问题的查询子图;
查询模块300,用于将查询子图与预设的模板进行筛选匹配,得到自然语言问题的答案,预设的模板为基于自然语言问题的各类型预设的查询模板。
构建模块包括:
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出自然语言问题中的实体,以及自然语言问题的类型;对自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型;
(2)N-gram算法产生备选词素:对词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合;
(3)词素扩展:对备选词素集合进行扩展,向备选词素集合中加入各备选词素的同义词。
生成模块包括:
(1)隐马模型查询图生成:将词素集合中的词语元素模糊查找智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图;
(2)隐马模型查询图排序:基于隐马模型查询图,进行路径相似度计算和排序,得到最符合自然语言问题的查询子图,路径相似度计算包括相关性计算、最短路径和可信度计算。
生成模块包括:
(1)迭代式查询图生成:选取词素集合中的实体元素,生成查询图,选取词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
(2)迭代式查询图排序:若存在多个查询子图,则抽取查询图的特征,依据相似度排序从各查询子图中找出最符合自然语言问题的查询子图,抽取的特征包括自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及查询图中实体数量。
查询模块包括:
计算查询子图中每种类型的元素数量;
基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;
将查询子图与候选模板进行匹配,确定最符合查询子图的模板,得到自然语言问题的答案,匹配包括节点类型的匹配和图结构的匹配,节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
采用本发明实施例的装置,针对智慧城市领域知识模型查询存在冷启动问题,初期缺少查询对数据的问题,利用隐马尔可夫模型推测用户问句的领域知识模型查询子图,并查询答案反馈给用户。针对隐马尔可夫模型查询效率低,查询响应时间较长的问题,使用图数据库管理领域知识模型,并在查询过程中迭代生成领域知识模型查询子图,从而查询答案反馈给用户,提高了检索的准确性和检索的效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种面向自然语言的城市领域知识模型查询方法,其特征在于,包括:
S100、基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建所述自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
S200、基于所述词素集合和所述智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合所述自然语言问题的查询子图;
S300、将所述查询子图与预设的模板进行筛选匹配,得到所述自然语言问题的答案,所述预设的模板为基于所述自然语言问题的各类型预设的查询模板。
2.根据权利要求1所述的方法,其特征在于,S100包括:
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出所述自然语言问题中的实体,以及所述自然语言问题的类型;对所述自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;所述自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型;
(2)N-gram算法产生备选词素:对所述词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合;
(3)词素扩展:对所述备选词素集合进行扩展,向所述备选词素集合中加入各备选词素的同义词。
3.根据权利要求1所述的方法,其特征在于,S200包括:
(1)隐马模型查询图生成:将所述词素集合中的词语元素模糊查找所述智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将所述备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合所述备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建所述自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图;
(2)隐马模型查询图排序:基于所述隐马模型查询图,进行路径相似度计算和排序,得到最符合所述自然语言问题的查询子图,所述路径相似度计算包括相关性计算、最短路径和可信度计算。
4.根据权利要求1所述的方法,其特征在于,S200包括:
(1)迭代式查询图生成:选取所述词素集合中的实体元素,生成查询图,选取所述词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至所述查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
(2)迭代式查询图排序:若存在多个查询子图,则抽取所述查询图的特征,依据相似度排序从各查询子图中找出最符合所述自然语言问题的查询子图,抽取的特征包括所述自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及所述查询图中实体数量。
5.根据权利要求1-4任一项所述的方法,其特征在于,S300包括:
计算所述查询子图中每种类型的元素数量;
基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;
将所述查询子图与所述候选模板进行匹配,确定最符合所述查询子图的模板,得到所述自然语言问题的答案,所述匹配包括节点类型的匹配和图结构的匹配,所述节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
6.一种面向自然语言的城市领域知识模型查询装置,其特征在于,包括:
构建模块,用于基于城市领域知识模型,对用户输入的自然语言问题进行解析,解析之后,经过与用户迭代式交互,构建所述自然语言问题的词素集合,解析过程包括用户查询主体识别、N-gram算法产生备选词素和词素扩展;
生成模块,用于基于所述词素集合和所述智慧城市领域知识模型,通过隐马模型查询图生成和隐马模型查询图排序,或者通过迭代式查询图生成和迭代式查询图排序,得到最符合所述自然语言问题的查询子图;
查询模块,用于将所述查询子图与预设的模板进行筛选匹配,得到所述自然语言问题的答案,所述预设的模板为基于所述自然语言问题的各类型预设的查询模板。
7.根据权利要求6所述的装置,其特征在于,所述构建模块包括:
(1)用户查询主体识别:通过主体识别算法和查询主体词典匹配,识别出所述自然语言问题中的实体,以及所述自然语言问题的类型;对所述自然语言问题进行预处理,预处理过程包括自然语言问句分词,用以得到最细粒度的问句切分后的词语集合,还包括去除停用词;所述自然语言问题的类型包括事实型、定义型、导航型、解决方案型、列表型、原因型六个类型;
(2)N-gram算法产生备选词素:对所述词语集合,以N-gram的方式进行不同粒度的词语组合,得到备选词素集合;
(3)词素扩展:对所述备选词素集合进行扩展,向所述备选词素集合中加入各备选词素的同义词。
8.根据权利要求6所述的装置,其特征在于,所述生成模块包括:
(1)隐马模型查询图生成:将所述词素集合中的词语元素模糊查找所述智慧城市领域知识模型,为每个词素集合中的词语元素产生备选匹配集合,将所述备选匹配集合进行笛卡尔积组合,生成备选匹配词素集合,将隐马尔可夫模型融合所述备选匹配词素集合中每个序列元素的相似度信息、词素共现信息和词频信息,构建所述自然语言问题的匹配依赖图,经过与用户交互,得到隐马模型查询图;
(2)隐马模型查询图排序:基于所述隐马模型查询图,进行路径相似度计算和排序,得到最符合所述自然语言问题的查询子图,所述路径相似度计算包括相关性计算、最短路径和可信度计算。
9.根据权利要求6所述的装置,其特征在于,所述生成模块包括:
(1)迭代式查询图生成:选取所述词素集合中的实体元素,生成查询图,选取所述词素集合中的链接元素并判断链接元素的属性,将链接元素以边或者节点的方式迭代式添加至所述查询图中,直到所有链接元素添加完毕,构成完整的查询子图;
(2)迭代式查询图排序:若存在多个查询子图,则抽取所述查询图的特征,依据相似度排序从各查询子图中找出最符合所述自然语言问题的查询子图,抽取的特征包括所述自然语言问题与各查询子图字符级别的相似度、句子级别的相似度以及所述查询图中实体数量。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述查询模块包括:
计算所述查询子图中每种类型的元素数量;
基于每种类型的元素数量,初步确定查询模板的范围,并将筛选出的查询模板作为候选模板;
将所述查询子图与所述候选模板进行匹配,确定最符合所述查询子图的模板,得到所述自然语言问题的答案,所述匹配包括节点类型的匹配和图结构的匹配,所述节点类型的匹配指查询子图中节点元素的类型与模板类型的匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110630148.3A CN114297350A (zh) | 2021-06-07 | 2021-06-07 | 一种面向自然语言的城市领域知识模型查询方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110630148.3A CN114297350A (zh) | 2021-06-07 | 2021-06-07 | 一种面向自然语言的城市领域知识模型查询方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297350A true CN114297350A (zh) | 2022-04-08 |
Family
ID=80964462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110630148.3A Pending CN114297350A (zh) | 2021-06-07 | 2021-06-07 | 一种面向自然语言的城市领域知识模型查询方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297350A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033135A (zh) * | 2018-06-06 | 2018-12-18 | 北京大学 | 一种面向软件项目知识图谱的自然语言查询方法及系统 |
CN110717018A (zh) * | 2019-04-15 | 2020-01-21 | 中国石油大学(华东) | 一种基于知识图谱的工业设备故障维修问答系统 |
CN112818092A (zh) * | 2020-04-20 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 知识图谱查询语句生成方法、装置、设备及存储介质 |
-
2021
- 2021-06-07 CN CN202110630148.3A patent/CN114297350A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033135A (zh) * | 2018-06-06 | 2018-12-18 | 北京大学 | 一种面向软件项目知识图谱的自然语言查询方法及系统 |
CN110717018A (zh) * | 2019-04-15 | 2020-01-21 | 中国石油大学(华东) | 一种基于知识图谱的工业设备故障维修问答系统 |
CN112818092A (zh) * | 2020-04-20 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 知识图谱查询语句生成方法、装置、设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
BERLIN CHEN ET AL.: "A Discriminative HMM/N-Gram-Based Retrieval Approach for Mandarin Spoken Documents", ACM TRANSACTIONS ON ASIAN LANGUAGE INFORMATION PROCESING, 30 June 2004 (2004-06-30) * |
唐爽 等: "基于本体推理的终端用户数据查询构造方法", 软件学报, 31 December 2019 (2019-12-31) * |
矫健;张仰森;: "基于隐马尔可夫模型的查询扩展方法", 计算机科学, no. 12, 15 December 2014 (2014-12-15) * |
胡川洌;符云清;钟明洋;: "基于领域本体的语义查询扩展", 计算机系统应用, no. 07, 15 July 2012 (2012-07-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Diefenbach et al. | Core techniques of question answering systems over knowledge bases: a survey | |
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
US10586155B2 (en) | Clarification of submitted questions in a question and answer system | |
CN110704743B (zh) | 一种基于知识图谱的语义搜索方法及装置 | |
US9727637B2 (en) | Retrieving text from a corpus of documents in an information handling system | |
US9373086B1 (en) | Crowdsource reasoning process to facilitate question answering | |
US9183511B2 (en) | System and method for universal translating from natural language questions to structured queries | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
Phan et al. | Pair-linking for collective entity disambiguation: Two could be better than all | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
US20160328467A1 (en) | Natural language question answering method and apparatus | |
US20160140123A1 (en) | Generating a query statement based on unstructured input | |
US9720962B2 (en) | Answering superlative questions with a question and answer system | |
CN113535917A (zh) | 基于旅游知识图谱的智能问答方法及系统 | |
WO2016138773A1 (zh) | 基于图的地址知识处理方法及装置 | |
JP2011118689A (ja) | 検索方法及びシステム | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
JP2014120053A (ja) | 質問応答装置、方法、及びプログラム | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
US11487795B2 (en) | Template-based automatic software bug question and answer method | |
EP3514706A1 (en) | Method for processing a question in natural language | |
Zhang et al. | Stanford at TAC KBP 2016: Sealing Pipeline Leaks and Understanding Chinese. | |
Li et al. | Neural factoid geospatial question answering | |
Song et al. | Semantic query graph based SPARQL generation from natural language questions | |
CN114391142A (zh) | 使用结构化和非结构化数据的解析查询 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |