CN109271459A - 基于Lucene和文法网络的聊天机器人及其实现方法 - Google Patents

基于Lucene和文法网络的聊天机器人及其实现方法 Download PDF

Info

Publication number
CN109271459A
CN109271459A CN201811088118.9A CN201811088118A CN109271459A CN 109271459 A CN109271459 A CN 109271459A CN 201811088118 A CN201811088118 A CN 201811088118A CN 109271459 A CN109271459 A CN 109271459A
Authority
CN
China
Prior art keywords
lucene
entity
module
answer
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811088118.9A
Other languages
English (en)
Other versions
CN109271459B (zh
Inventor
刘楚雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811088118.9A priority Critical patent/CN109271459B/zh
Publication of CN109271459A publication Critical patent/CN109271459A/zh
Application granted granted Critical
Publication of CN109271459B publication Critical patent/CN109271459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于Lucene和文法网络的聊天机器人的实现方法,含步骤:A.通过lucene在硬盘中构建实体变量的索引文件以及真实用户聊天问答语料索引文件、通过arngo数据库在硬盘上构建实体、实体关系;B.选择ABNF文法规范和解析器构建对应的问答模板;C.在ABNF解析器添加lucene检索实体的叶子节点、arango查询关系的叶子节点、lucene检索语料的叶子节点;D.进行语句匹配按照定义的规则,匹配指定的叶子节点;E.选择最优的回答。本发明通过添加lucene检索实体的叶子节点和arango查询关系的叶子节点,可构建特定领域的文法网络,解决精确、快速识别封闭域的聊天问题,通过添加lucene检索语料的叶子节点,解决真实用户开放域聊天问题。

Description

基于Lucene和文法网络的聊天机器人及其实现方法
技术领域
本发明涉及人工智能技术领域,特别涉及基于Lucene和文法网络的聊天机器人及其实现方法。
背景技术
随着人工智能与自然语言处理的兴起,聊天机器人作为自然语言处理中自动问答下的一个重要方向,主要研究模拟人类对话或聊天的问题,当前,主要的技术手段是面向特定领域的规则匹配和面向开放域的基于检索、机器学习等。
市面上商业化的聊天机器人,主要是通过规则化(正则匹配或文法网络)的方法实现的,这种聊天机器人的设计,是通过人工构造模板和规则,用以设定特定场景、编写特定的对话问答,来匹配用户问题,来生成答案,给出回答的。无论是正则匹配还是文法网络,对于它们构建有限规则外的开放性问句,由于人类日常通用随意语言不规则、句式成分缺失等,难以构建规则,都无法识别,也就是说不能处理开放域的聊天问答,只能实现特定领域的问答。同时对于句式单一、实体丰富的聊天场景,实体数据达百万、千万级,规则上万,规则匹配慢,这显然是不合理的。
规则化的方案通过构建场景模板等用于自动问答,匹配方式虽然能够给出精确回答,但人类语言、聊天句式、聊天场景等千千万万、不可计数,不可能、也不能够构建所有可能出现问答的模板;同时经典常用句式的实体达千万、亿甚至是兆级,也不是结构化的数据,常用的数据库等的匹配就变得很慢了。因为这样既不经济(需要大量人力和有经验的文法工程师),同时也不能够罗列出所有自然语言句式(存在句式语义分歧问题)。不能穷举出所有的语法可能,单一的规则化方法就只能处理特定领域的问题,目前还没有一种通用化方法。针对规则和检索化两个方法的优缺点,采用规则匹配和搜索引擎搭配并行的方法构建聊天机器人,不失为一种通用化的合理方案。
发明内容
本发明的目的是克服上述背景技术中不足,提供基于Lucene和文法网络的聊天机器人及其实现方法,通过使用ABNF提供标准的语义规范构建问答模板,规则中实体部分采用lucene精确检索,实体关系使用arango数据库构建的知识图谱查询;规则化模板不能识别的问句部分将提取关键词,并模糊检索已经存储在lucene中的真实用户聊天问答语料;实体、实体关系、语料的检索发生在规则匹配前,并存在于缓存里,解决了基于规则化的聊天机器人规则匹配速度慢、不能处理开放域、规则匹配穷举困难等问题,同时能够对对特定领域和开放领域进行自动回答。
为了达到上述的技术效果,本发明采取以下技术方案:
基于Lucene和文法网络的聊天机器人的实现方法,包括以下步骤:
A.通过lucene在硬盘中构建实体变量的索引文件以及真实用户聊天问答语料索引文件、通过arngo数据库在硬盘上构建实体、实体关系;
B.选择ABNF文法规范和解析器构建对应的问答模板,用以解析聊天问句;
C.在ABNF解析器添加lucene检索实体的叶子节点、arango查询关系的叶子节点、lucene检索语料的叶子节点;
D.进行语句匹配按照定义的规则,匹配指定的叶子节点;
E.选择最优的回答。
本发明的基于Lucene和文法网络的聊天机器人的实现方法主要是通过lucene在硬盘中构建作者writer、视频video、音乐music等变量的索引文件,以及真实用户聊天问答语料(包括问题和回答)QAdb索引文件;同时通过arngo数据库在硬盘上构建作者与视频、作者与音乐等的实体和关系,然后选择恰当的ABNF文法规范和解析器,构建对应的问答模板,用以解析聊天问句,然后在ABNF解析器中添加lucene检索实体的叶子节点、lucene检索语料的叶子节点和arango查询关系的叶子节点,其次,再进行语句匹配按照定义的规则,匹配指定的叶子节点并确定对应的回答结果,最后返回选择最优的回答;
其中,通过添加lucene检索实体的叶子节点和arango查询关系的叶子节点,可构建特定领域的文法网络,用以解决精确、快速识别封闭域的聊天问题,通过添加lucene检索语料的叶子节点,可实现模糊全文检索语料识别聊天问句,解决真实用户开放域聊天问题。
进一步地,所述步骤C中的lucene检索实体的叶子节点是通过Lucene全文检索引擎,使用精确、高并发的Lucene检索功能,实现短文本聊天问句中的所有实体的匹配,所述实体变量的索引文件采用的是String格式,用以规则化的快速、精确的字符串匹配。
进一步地,所述步骤D中按照定义的规则,匹配到lucene检索实体的叶子节点时,将采用任意字符组合的方式切词再通过lucene检索实体的叶子节点检索索引文件中存在的实体,从而得到实体。
进一步地,所述步骤D中按照定义的规则,匹配到arango查询关系的叶子节点时,是同匹配到lucene检索实体的叶子节点时得到的所述实体一同通过任意字符切分分词后,再检索arango数据库获取实体对应关系的实体,再抽取后面的实体,从而得到新的实体。
进一步地,所述步骤C中的lucene检索语料的叶子节点是通过收集,处理、清洗用户真实数据并将用户聊天问答集合起来采用Lucene的Text格式存储。
进一步地,当在所述步骤D中按照定义的规则,匹配到lucene检索语料的叶子节点时,是使整个句子模糊匹配Lucene中所有语料问句,使用levenshtein算法,提取出匹配程度最高的问句并抽取回答。
同时,本发明还公开了一种基于Lucene和文法网络的聊天机器人,包括:
语音识别模块:将用户语句转化为文本信息;
ABNF文法网络模块:以规则化方法穷举所有用户问句的语法、关系和实体,以精确封闭域聊天问答,给出聊天的回答结果;
Lucene存储模块:存储实体和问答语料;
arangodb知识图谱模块:存储实体间的关系,用以实现实体间关系的查找;
lucene全文模糊检索模块:模糊检索与用户问句相似的存储语料,给出回答结果;
ansj-搜索引擎搜索模块:用于在ansj工具提取出用户问句的关键字后,到第三方搜索引擎进行关键词搜索,给出搜索引擎的回答结果;
问答结果判断模块:对ABNF文法网络模块、lucene全文模糊检索模块及ansj-搜索引擎搜索模块给出的结果进行取优判断并返回优选的回答结果;
语音生成模块:根据问答结果判断模块得到的回答结果的文本语句生成语音;
其中,所述语音识别模块及问答结果判断模块均分别与ABNF文法网络模块、lucene全文模糊检索模块、ansj-搜索引擎搜索模块相连,且问答结果判断模块还与语音生成模块相连,ABNF文法网络模块分别与arangodb知识图谱模块、Lucene存储模块相连,lucene全文模糊检索模块与Lucene存储模块相连。
进一步地,所述lucene全文模糊检索模块中模糊查询搜索评分采用的算法是Damerau-Levenshtein算法,且其阀值设为10。
进一步地,所述问答结果判断模块在进行结果进行取优判断并返回优选的回答结果时具体是若ABNF文法网络模块有聊天的回答结果返回时则返回ABNF文法网络模块的回答结果,否则,确认lucene全文模糊检索模块中是否有评分高于阀值的回答结果返回,若有,则返回lucene全文模糊检索模块的回答结果,否则返回ansj-搜索引擎搜索模块的回答结果。
进一步地,所述Lucene存储模块内存储实体和问答语料时,实体采用String格式,问答语料使用Text格式。
本发明与现有技术相比,具有以下的有益效果:
本发明的基于Lucene和文法网络的聊天机器人及其实现方法,通过Lucene全文检索引擎、arango数据库、ansj分词工具和ABNF文法规范等,公开了一种基于Lucene和文法网络的聊天机器人设计方法,并构造出半开放聊天机器人装置,可解决基于规则化的聊天机器人规则匹配速度慢、不能处理开放域、规则匹配穷举困难等问题,同时能够对对特定领域和开放领域进行自动回答,且相比其他聊天机器人装置,本发明的基于Lucene和文法网络的聊天机器人的Lucene存储模块和arangodb知识图谱模块,有利于实体的关系的匹配和大规模并发,使用ansj-搜索引擎搜索模块,解决开放域问题。
附图说明
图1是本发明的一个实施例的基于Lucene和文法网络的聊天机器人的实现方法的流程示意图。
图2是本发明的一个实施例的基于Lucene和文法网络的聊天机器人的实现方法中规则匹配的流程示意图。
图3是本发明的一个实施例的基于Lucene和文法网络的聊天机器人的示意图。
具体实施方式
下面结合本发明的实施例对本发明作进一步的阐述和说明。
实施例:
实施例一:
一种基于Lucene和文法网络的聊天机器人实现方法,其包含的步骤如下:
1)通过lucene在硬盘中构建作者writer、视频video、音乐music等变量的索引文件,以及真实用户聊天问答语料(问题和回答)QAdb索引文件;通过arngo数据库在硬盘上构建作者与视频、作者与音乐等的实体和关系。
2)选择恰当的ABNF文法规范和解析器,构建对应的问答模板,用以解析聊天问句。
3)在ABNF解析器中添加lucene检索实体的叶子节点、lucene检索语料的叶子节点和arango查询关系的叶子节点。
4)按照定义的规则,匹配指定的叶子节点。
5)选择最优的回答。
具体的,本发明的技术方案中是通过添加lucene检索实体的叶子节点和arango查询关系的叶子节点构建特定领域的文法网络,用以解决精确、快速识别封闭域的聊天问题;通过添加、lucene检索语料的叶子节点,模糊全文检索语料,识别聊天问句,解决真实用户开放域聊天问题。
其中,匹配lucene检索实体的叶子节点就是通过Lucene全文检索引擎,使用精确、高并发的Lucene检索功能,实现短文本聊天问句中的所有实体的匹配。通过lucene在硬盘构建动画、漫画、游戏、小说、作者、角色等实体变量的索引文件,采用的是String格式,用以精确匹配,例如有一个问句:
问句Q1:“我想看动漫某夜叉!”
则将问句Q1处理特殊符号得到“我想看动漫某夜叉”后,使用lucene检索实体的叶子节点就会采用任意字符组合的方式切词,再通过Lucene检索实体节点,检索“我想看动漫某夜叉”、“我想看”、“我想”…“想看动漫某夜叉”、“看动漫某夜叉”……“叉”等,检索索引文件中存在的实体,得到“某夜叉”、“夜叉”、“动漫”等实体。
匹配lucene检索语料的叶子节点是通过收集,处理、清洗用户真实数据,将那些经典的和奇怪的用户聊天问答集合起来,采用Lucene的Text格式存储起来后,然后,使用levenshtein算法,整个句子模糊匹配Lucene中所有语料问句,提取出匹配程度最高的问句并抽取回答,即通过lucene在硬盘构建实际用户数据的问答语料QAdb的索引文件,用以模糊匹配。
例如来了一个问句:
问句Q2:“成都这个城市好不好?”
Lucene聊天语料节点就会使用整个短文本,通过levenshtein算法检索所有的语料问句,假设有以下语料问句与:
(Q2.1)成都好不好?
(Q2.2)成都这个城市好吗?
(Q2.3)成都这个城市咋样?
根据levenshtein算法,匹配结果得分高低的顺序就是(Q2.2),(Q2.3),
(Q2.1),那么就会抽取问句(Q2.2)所对应的回答。
匹配arango查询关系的叶子节点是通过arango在硬盘构建动画、漫画、游戏、小说、作者、角色等变量的关系(relation)知识图谱,同匹配lucene检索实体的叶子节点中得到的实体后的通过任意字符切分分词后的词(关系),检索arango数据库,获取实体对应关系的实体,再抽取后面的实体,例如:
问句Q3:我想看邓某妻子的电视剧
在(1.1)中匹配得到实体“邓某”后,再切分“妻子的电视剧”,任意切分有“妻”、“妻子”、“妻子的”…“剧”,再对这些分词对着实体邓某查找关系,能查询到“妻子”,那么就抽取得到的新的真正的实体,也就是邓某的妻子——“孙某”,如此,就能扩大范围,使得聊天问答更加精确。
具体的,本发明的技术方案中是基于Lucene的精确规则匹配和模糊检索,即分别将lucene检索实体的叶子节点、lucene检索语料的叶子节点和arango查询关系的叶子节点当做一个条件规则,写入自动问答的文法网络规则模板中。
例如:
rule_Music_Question=[“俺”][“要看”][writer“的”[relation]]MUSIC
rule_Music_Answer=[“给你”]MUSIC
其中,Writer表示实体作者,MUSIC表示实体音乐名,relation表示实体间的关系,比如说人物关系夫妻、兄弟等,当问句匹配到Writer或MUSIC的时候,就会采用lucene检索的方式检索所有的Writer和MUSIC实体,当用户文本问句匹配到relation的时候,就会采用arangodb数据库查询的方式查询所有的relation实体,用以替代规则穷举的方法。
具体的,当规则rule_Music_Question能够匹配上的时候,提取出匹配到的Writer或Animation实体,和relation实体后,根据对应的rule_Music_Answer规则,给出回答。
Lucene语料的模糊匹配中模糊匹配主要是使用lucene的标准分词器StandardAnalyzer对问答语料进行分词处理,最后再用TestField进行存储,使用levenshtein算法,用以模糊搜索,具体方法如下:
question=“你好”answer=“你也好”
其中,检索方法采用的是Damerau-Levenshtein算法进行模糊查询,模糊查询搜索评分采用的算法是Damerau-Levenshtein算法,且其阀值设为10。
如图1所示,一种基于Lucene和文法网络的聊天机器人实现方法的具体工作流程的实施例,具体如下:
a.根据需求编写文法网络语法规则:如下
rule_MUSIC_QUESTION=[”我”][“看看”][FIGURE][relation]MUSIC
rule_MUSIC_ANSWER=”给你”[FIGURE][relation]MUSIC
b.实体、语料的Lucene索引文件增量构建,arango关系的构建等,如下:
新建或更新索引文件:FIGURE、MUSIC等;
新建或更新arango指数图谱:relation等;
c.在解析器中添加MUSIC、FIGURE、语料等rule节点,在Figure实体的lucene检索中添加relation查询的arango节点;
d.问句匹配,按照定义的规则,匹配指定的叶子节点。
如图2所示为文法网络规则匹配的流程图:按照各个节点层层匹配,在该图中详细描绘了一条规则的完整匹配过程。
实施例二
如图3所示,一种基于Lucene和文法网络的聊天机器人,具体包括:
语音识别模块、ABNF文法网络模块、Lucene存储模块、arangodb知识图谱模块、lucene全文模糊检索模块、ansj-搜索引擎搜索模块、问答结果判断模块、语音生成模块。
其中,语音识别模块及问答结果判断模块均分别与ABNF文法网络模块、lucene全文模糊检索模块、ansj-搜索引擎搜索模块相连,且问答结果判断模块还与语音生成模块相连,ABNF文法网络模块分别与arangodb知识图谱模块、Lucene存储模块相连,lucene全文模糊检索模块与Lucene存储模块相连。
具体的,语音识别模块用于接受用户语音,使用语音识别工具,将用户语句转化为文本信息。
ABNF文法网络模块则用于规则化方法穷举所有用户问句的语法、关系和实体,以精确封闭域聊天问答,给出标准聊天回答,其具体实现方式如下:
首先,分别包括并行处理的文法网络匹配,lucene模糊检索和ansj关键词提取三个子方法,具体内容如下:
其中,文法网络匹配是根据预先设定的规则,从前往后依次匹配已经分领域设定好的规则,如当匹配到实体关键字FIGURE和MUSIC的时候,则采用lucene检索预先在硬盘上的构造好的实体索引文件;当匹配到实体关键字FIGURE中含有relation的时候,则查询arangodb中实体关键字singer的relation对应的实体,如果能够匹配上,则返回对应回答模板。
在本实施例中若输入的语音为“我想听邓某老婆的XXXX”
即首先利用lucene查询到邓某,然后再使用知识图谱arangodb查找邓某老婆,找到孙某,然后再查找孙某唱的音乐“XXXX”,这时判断能够匹配上,那么就抽取实体孙某,实体具体的音乐,返回对应的回答,也就是回答为“播放孙某的电影”。
lucene全文模糊检索是与文法网络匹配并行处理,根据Damerau-Levenshtein算法,通过修改插入一个字符,修改一个字符或者删除一个字符,对比用户问句与预先存储的lucene中问答语料,找到编辑距最小的问句,计算评分,并抽取其回答;
ansj-搜索引擎搜索也是与文法网络匹配并行处理,根据TD-IDF算法提取关键词[“想听”,“邓某”,“老婆”,“XXXX”],然后再根据这些词四个组合搜素,获取排名最靠前的回答:
“盘点邓某老婆孙某演过的几部电影,你看过吗?《XX天使》饰演:查某某;《大话XX》饰演:金某;《X壁》饰演:芍某;《XX长》饰演:某兰;《XX宝盒》饰演:某某仙子;《X山》饰演:某虎”。
Lucene存储模块:用于存储实体和问答语料,实体用于规则穷举,包含电影,音乐,动漫,小说等名字,问答语料用以lucene搜索引擎检索模糊检索。
arangodb知识图谱模块:用于存储实体、实体间的关系,用以实现规则中关系的查找。
lucene全文模糊检索模块:用于模糊检索与用户问句相似的存储语料,给出回答的结果。
ansj-搜索引擎搜索模块:用于在ansj工具提取出用户问句的关键字后,到百度或者360进行关键词搜索,给出搜索引擎的回答结果。
问答结果判断模块:用于对ABNF文法网络模块、lucene全文模糊检索模块及ansj-搜索引擎搜索模块给出的结果进行取优判断并返回,具体过程如下:
若ABNF文法网络模块有聊天的回答结果返回时则返回ABNF文法网络模块的回答结果,否则,确认lucene全文模糊检索模块中是否有评分高于阀值即高于10分的回答结果返回,若有,则返回lucene全文模糊检索模块的回答结果,若上述条件均不符合,返回ansj-搜索引擎搜索模块的回答结果。
语音生成模块用于将返回的文本信息回答转化为语音。
由上可知,在本发明的基于Lucene和文法网络的聊天机器人中,将Lucene、文法网络和知识图谱相结合,问答规则模板部分使用文法网络构建,规则不能识别部分采用Lucene搜索引擎实现,例如问答:
Question_VEDIO_QUERY_0:[“能不能”]“播”[“放”][writer[relation]“的”]Vedioname
Ansswer_VEDIO_QUERY_0:“给你播放”[writer[relation]“的”]Vedioname
可以根据匹配到的“能不能播放Vedioname”、“放映Vedioname”、“放张某某的Vedioname”用户问句等,给出回答,如果所有的规则不能匹配上,那么就使用分词工具(比如说ansj)提取问句中的关键字后,采用搜索引擎检索已经拥有的问答语料QAdb。其中Vedioname表示电影电视剧的实体名,writer表示作者、导演,relation表示关系等。
Vedioname、writer等这些实体名使用lucene构建索引存储(搜索引擎的检索速度比mongo、mysql等数据库、redis等缓存系统要快、并发程度高),用以精确匹配检索;relation这些关系采用知识图谱数据库(比如说ArangoDB)存储,用以表示各个实体间的关系;最后的问答语料QAdb也用lucene构建索引存储到硬盘,用以实现模糊检索。
在Lucene全文检索工具采用的是:前缀压缩的FST结构词典、数据压缩和跳跃表相结合的Frame of reference倒排表、以及能够分块和压缩的正向文件,构建倒插排序索引;使用语法树和TD-IDF算法,实现大规模数据精确和模糊全文检索。
本发明中充分利用了Lucene对于大规模实体的高并发数据的检索时高速检索。由于倒排文件索引能够提供快速查找,由于索引中按关键词的字典序进行排序,从而使该索引支持快速的二分查找,相比于海量的聊天语料内容而言,关键词的数量是微不足道的,检索这些关键词花费的时间是毫秒级的。所以,将常用聊天模板中的实体构成这些关键词排序后,就能实现高效快速的规则匹配了。
即在本发明的技术方案中通过采用单纯的提取关键词技术,再使用关键词检索的方案,实现了开放域聊天,同时采用基于规则化、基于检索和基于关键词的搜索引擎三种技术方案并行的方式,实现了聊天问答的准确性和半开放性。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,包括以下步骤:
A.通过lucene在硬盘中构建实体变量的索引文件以及真实用户聊天问答语料索引文件、通过arngo数据库在硬盘上构建实体、实体关系;
B.选择ABNF文法规范和解析器构建对应的问答模板,用以解析聊天问句;
C.在ABNF解析器添加lucene检索实体的叶子节点、arango查询关系的叶子节点、lucene检索语料的叶子节点;
D.按照定义的规则,匹配指定的叶子节点;
E.选择最优的回答。
2.根据权利要求1所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤C中的lucene检索实体的叶子节点是通过Lucene全文检索引擎,使用精确、高并发的Lucene检索功能,实现短文本聊天问句中的所有实体的匹配,所述实体变量的索引文件采用的是String格式。
3.根据权利要求2所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤D中按照定义的规则,匹配到lucene检索实体的叶子节点时,将采用任意字符组合的方式切词再通过lucene检索实体的叶子节点检索索引文件中存在的实体,从而得到实体。
4.根据权利要求3所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤D中按照定义的规则,匹配到arango查询关系的叶子节点时,是同匹配到lucene检索实体的叶子节点时得到的所述实体一同通过任意字符切分分词后,再检索arango数据库获取实体对应关系的实体,再抽取后面的实体,从而得到新的实体。
5.根据权利要求1所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,所述步骤C中的lucene检索语料的叶子节点是通过收集,处理、清洗用户真实数据并将用户聊天问答集合起来采用Lucene的Text格式存储。
6.根据权利要求5所述的基于Lucene和文法网络的聊天机器人的实现方法,其特征在于,当在所述步骤D中按照定义的规则,匹配到lucene检索语料的叶子节点时,是使整个句子模糊匹配Lucene中所有语料问句,使用levenshtein算法,提取出匹配程度最高的问句并抽取回答。
7.基于Lucene和文法网络的聊天机器人,其特征在于,包括:
语音识别模块:将用户语句转化为文本信息;
ABNF文法网络模块:以规则化方法穷举所有用户问句的语法、关系和实体,以精确封闭域聊天问答,给出聊天的回答结果;
Lucene存储模块:存储实体和问答语料;
arangodb知识图谱模块:存储实体间的关系,用以实现实体间关系的查找;
lucene全文模糊检索模块:模糊检索与用户问句相似的存储语料,给出回答结果;
ansj-搜索引擎搜索模块:用于在ansj工具提取出用户问句的关键字后,到第三方搜索引擎进行关键词搜索,给出搜索引擎的回答结果;
问答结果判断模块:对ABNF文法网络模块、lucene全文模糊检索模块及ansj-搜索引擎搜索模块给出的结果进行取优判断并返回优选的回答结果;
语音生成模块:根据问答结果判断模块得到的回答结果的文本语句生成语音;
其中,所述语音识别模块及问答结果判断模块均分别与ABNF文法网络模块、lucene全文模糊检索模块、ansj-搜索引擎搜索模块相连,且问答结果判断模块还与语音生成模块相连,ABNF文法网络模块分别与arangodb知识图谱模块、Lucene存储模块相连,lucene全文模糊检索模块与Lucene存储模块相连。
8.根据权利要求7所述的基于Lucene和文法网络的聊天机器人,其特征在于,所述lucene全文模糊检索模块中模糊查询搜索评分采用的算法是Damerau-Levenshtein算法,且其阀值设为10。
9.根据权利要求8所述的基于Lucene和文法网络的聊天机器人,其特征在于,所述问答结果判断模块在进行结果进行取优判断并返回优选的回答结果时具体是若ABNF文法网络模块有聊天的回答结果返回时则返回ABNF文法网络模块的回答结果,否则,确认lucene全文模糊检索模块中是否有评分高于阀值的回答结果返回,若有,则返回lucene全文模糊检索模块的回答结果,否则返回ansj-搜索引擎搜索模块的回答结果。
10.根据权利要求7所述的基于Lucene和文法网络的聊天机器人,其特征在于,所述Lucene存储模块内存储实体和问答语料时,实体采用String格式,问答语料使用Text格式。
CN201811088118.9A 2018-09-18 2018-09-18 基于Lucene和文法网络的聊天机器人及其实现方法 Active CN109271459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811088118.9A CN109271459B (zh) 2018-09-18 2018-09-18 基于Lucene和文法网络的聊天机器人及其实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811088118.9A CN109271459B (zh) 2018-09-18 2018-09-18 基于Lucene和文法网络的聊天机器人及其实现方法

Publications (2)

Publication Number Publication Date
CN109271459A true CN109271459A (zh) 2019-01-25
CN109271459B CN109271459B (zh) 2021-12-21

Family

ID=65196999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811088118.9A Active CN109271459B (zh) 2018-09-18 2018-09-18 基于Lucene和文法网络的聊天机器人及其实现方法

Country Status (1)

Country Link
CN (1) CN109271459B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829052A (zh) * 2019-02-19 2019-05-31 田中瑶 一种基于人机交互的开放式对话方法和系统
CN110287466A (zh) * 2019-06-24 2019-09-27 腾讯科技(深圳)有限公司 一种实体模板生成方法和装置
CN110727782A (zh) * 2019-10-22 2020-01-24 苏州思必驰信息科技有限公司 问答语料生成方法及系统
CN110795544A (zh) * 2019-09-10 2020-02-14 腾讯科技(深圳)有限公司 内容搜索方法、装置、设备和存储介质
CN112133303A (zh) * 2020-09-16 2020-12-25 四川长虹电器股份有限公司 一种实现一套系统支持多品牌智能音箱语义指令的方法
CN112417140A (zh) * 2020-11-19 2021-02-26 北京猎户星空科技有限公司 文法配置方法、文法匹配方法、装置和计算机设备
CN114266258A (zh) * 2021-12-30 2022-04-01 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质
CN112417140B (zh) * 2020-11-19 2024-07-16 北京猎户星空科技有限公司 文法配置方法、文法匹配方法、装置和计算机设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119047A1 (en) * 2009-11-19 2011-05-19 Tatu Ylonen Oy Ltd Joint disambiguation of the meaning of a natural language expression
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索系统
CN103729463A (zh) * 2014-01-14 2014-04-16 赛特斯信息科技股份有限公司 基于Lucene和Solr实现全文检索的方法
CN104298683A (zh) * 2013-07-18 2015-01-21 佳能株式会社 主题挖掘方法和设备、以及查询扩展方法和设备
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104572868A (zh) * 2014-12-18 2015-04-29 清华大学 基于问答系统的信息匹配的方法和装置
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
CN107544960A (zh) * 2017-08-29 2018-01-05 中国科学院自动化研究所 一种基于变量绑定和关系激活的推理方法
CN107704451A (zh) * 2017-10-18 2018-02-16 四川长虹电器股份有限公司 基于文法网络和lucene的语义分析方法
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN108196880A (zh) * 2017-12-11 2018-06-22 北京大学 软件项目知识图谱自动构造方法与系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119047A1 (en) * 2009-11-19 2011-05-19 Tatu Ylonen Oy Ltd Joint disambiguation of the meaning of a natural language expression
CN102096845A (zh) * 2009-12-10 2011-06-15 黑龙江省森林工程与环境研究所 森林分类经营知识库全文搜索引擎系统
CN104298683A (zh) * 2013-07-18 2015-01-21 佳能株式会社 主题挖掘方法和设备、以及查询扩展方法和设备
CN103440287A (zh) * 2013-08-14 2013-12-11 广东工业大学 一种基于产品信息结构化的Web问答检索系统
CN103729463A (zh) * 2014-01-14 2014-04-16 赛特斯信息科技股份有限公司 基于Lucene和Solr实现全文检索的方法
CN104361127A (zh) * 2014-12-05 2015-02-18 广西师范大学 基于领域本体和模板逻辑的多语种问答接口快速构成方法
CN104572868A (zh) * 2014-12-18 2015-04-29 清华大学 基于问答系统的信息匹配的方法和装置
CN104573028A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 实现智能问答的方法和系统
WO2018072563A1 (zh) * 2016-10-18 2018-04-26 中兴通讯股份有限公司 一种知识图谱构建方法、装置及系统
CN107544960A (zh) * 2017-08-29 2018-01-05 中国科学院自动化研究所 一种基于变量绑定和关系激活的推理方法
CN107704451A (zh) * 2017-10-18 2018-02-16 四川长虹电器股份有限公司 基于文法网络和lucene的语义分析方法
CN108196880A (zh) * 2017-12-11 2018-06-22 北京大学 软件项目知识图谱自动构造方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANHAO XU: "Network Information Searching Technology Research Based on Cloud Computing", 《2016 INTERNATIONAL CONFERENCE ON SMART GRID AND ELECTRICAL AUTOMATION (ICSGEA)》 *
李靖: "基于Lucene的在线客服机器人的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829052A (zh) * 2019-02-19 2019-05-31 田中瑶 一种基于人机交互的开放式对话方法和系统
CN110287466A (zh) * 2019-06-24 2019-09-27 腾讯科技(深圳)有限公司 一种实体模板生成方法和装置
CN110795544A (zh) * 2019-09-10 2020-02-14 腾讯科技(深圳)有限公司 内容搜索方法、装置、设备和存储介质
CN110795544B (zh) * 2019-09-10 2023-07-21 腾讯科技(深圳)有限公司 内容搜索方法、装置、设备和存储介质
CN110727782A (zh) * 2019-10-22 2020-01-24 苏州思必驰信息科技有限公司 问答语料生成方法及系统
CN112133303A (zh) * 2020-09-16 2020-12-25 四川长虹电器股份有限公司 一种实现一套系统支持多品牌智能音箱语义指令的方法
CN112417140A (zh) * 2020-11-19 2021-02-26 北京猎户星空科技有限公司 文法配置方法、文法匹配方法、装置和计算机设备
CN112417140B (zh) * 2020-11-19 2024-07-16 北京猎户星空科技有限公司 文法配置方法、文法匹配方法、装置和计算机设备
CN114266258A (zh) * 2021-12-30 2022-04-01 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109271459B (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN109271459A (zh) 基于Lucene和文法网络的聊天机器人及其实现方法
CN107135247B (zh) 一种人与人工智能协同工作的服务系统及方法
CN105608218B (zh) 智能问答知识库的建立方法、建立装置及建立系统
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN108304372A (zh) 实体提取方法和装置、计算机设备和存储介质
WO2017076205A1 (zh) 一种获取聊天发起句的回复提示内容的方法及装置
CN108681574B (zh) 一种基于文本摘要的非事实类问答答案选择方法及系统
CN111597308A (zh) 一种基于知识图谱的语音问答系统及其应用方法
CN107590133A (zh) 基于语义的招聘职位与求职简历匹配的方法及系统
CN106156365A (zh) 一种知识图谱的生成方法及装置
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN106934068A (zh) 机器人基于环境上下文的语义理解的方法
CN106776797A (zh) 一种基于本体推理的知识问答系统及其工作方法
CN111400506B (zh) 古诗词命题方法及系统
CN104778256B (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN111026886A (zh) 一种针对专业场景的多轮对话处理方法
CN109460459A (zh) 一种基于日志学习的对话系统自动优化方法
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN109829045A (zh) 一种问答方法和装置
CN113609264B (zh) 电力系统节点的数据查询方法、装置
CN109635107A (zh) 多数据源的语义智能分析及事件场景还原的方法及装置
CN108763355B (zh) 一种基于用户的智能机器人交互数据处理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant