CN107423432A - 机器人区分专业问题和寒暄问题的方法及系统 - Google Patents

机器人区分专业问题和寒暄问题的方法及系统 Download PDF

Info

Publication number
CN107423432A
CN107423432A CN201710656545.1A CN201710656545A CN107423432A CN 107423432 A CN107423432 A CN 107423432A CN 201710656545 A CN201710656545 A CN 201710656545A CN 107423432 A CN107423432 A CN 107423432A
Authority
CN
China
Prior art keywords
sentence
greeting
professional
robot
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710656545.1A
Other languages
English (en)
Other versions
CN107423432B (zh
Inventor
李澜
李薇薇
赵文君
薛慕原
李熠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wuyi Vision digital twin Technology Co.,Ltd.
Original Assignee
Mobile Internet Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mobile Internet Technology Group Co Ltd filed Critical Mobile Internet Technology Group Co Ltd
Priority to CN201710656545.1A priority Critical patent/CN107423432B/zh
Publication of CN107423432A publication Critical patent/CN107423432A/zh
Application granted granted Critical
Publication of CN107423432B publication Critical patent/CN107423432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种机器人区分专业问题和寒暄问题的方法,包括以下步骤:获取用于机器人识别的第一问题语句;将第一问题语句输入问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句;将第二问题语句输入问答系统中,经过过滤词表进行过滤处理后输出第三问题语句;如果第三问题语句所在集合为空时,则判断第一问题语句为寒暄问题,从而进入寒暄问题处理系统中;如果第三问题语句所在集合为非空时,则判断第一问题语句为专业问题,从而进入专业问题处理系统中。本发明还公开了一种机器人区分专业问题和寒暄问题的系统。本发明具有能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率及问答效率的有益效果。

Description

机器人区分专业问题和寒暄问题的方法及系统
技术领域
本发明涉及聊天机器人技术领域,特别涉及机器人区分专业问题和寒暄问题的方法及系统。
背景技术
人工智能(Artificial Intelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想未来人工智能带来的科技产品,将会是人类智慧的“容器”。
通常业内并不让同一个机器人同时具备寒暄聊天知识问答库和专业知识问答库,因此会准备两个知识问答库,一个是用于寒暄聊天的知识问答库,另一个是机器人面向服务领域或对象的专业知识问答库。也就是说,从为机器人准备知识时就会分别准备机器人用于寒暄的知识和机器人用于专业领域对话的知识。机器人在回答一个问题的时候会把这个问题输入到寒暄知识问答库和专业知识问答库中去,找到两个库中最好的答案,也就是匹配度最高的一个答案。
机器人区分专业问题和寒暄问题错误,从而导致问题回答的错误,也就是说经常出现这样回答错误的情况,机器人在寒暄知识问答库和专业知识问答库中找到两个库中匹配度最高的一个答案作为返回,但这个答案是错误的,即错误的找到了并非其答案所在库的答案,但是当关闭了这个并非其答案所在的库后机器人就能够正确回答了。比如本来这个问题是关于专业知识的问题,机器人却当作寒暄问题进行回答了,但是当关闭了寒暄知识问答库后,机器人就能正确回答这个关于专业知识的问题了。同样地,机器人有时也会错误地把寒暄的问话回答成专业知识库中的答案。
因此,研发出一种能够正确区分问题语句是专业问题还是寒暄问题的方法及系统具有重要的现实意义。
发明内容
本发明之目的是提供一种机器人区分专业问题和寒暄问题的方法及系统,其能够有效地判断用户输入的问题是专业问题还是寒暄问题,从而提高了问答系统整体的准确率及效率问题。
为此,本发明提供一种机器人区分专业问题和寒暄问题的方法,包括以下步骤:
获取用于机器人识别的第一问题语句;
将所述第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,所述特殊分词模型为专业领域语料加寒暄对话语料训练出的特殊分词模型;
将所述第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,所述过滤词表为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;
如果所述第三问题语句所在集合为空时,则判断所述第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以所述第二问题语句为初始问题语句输入所述寒暄问题处理系统中;
如果所述第三问题语句所在集合为非空时,则判断所述第一问题语句为专业问题,从而进入专业问题处理系统中,此时以所述第一问题语句为初始问题语句输入所述专业问题处理系统中。
优选地,所述寒暄问题处理系统包括:
获取用于机器人识别的所述第二问题语句;
将所述第二问题语句输入寒暄问题处理系统中,经过用于处理寒暄语料的停用词表进行过滤处理;
将经过过滤处理后的所述第二问题语句输入寒暄对话模型中进行计算;
输出寒暄问题对应的答案。
优选地,所述专业问题处理系统包括:
获取用于机器人识别的所述第一问题语句;
将所述第一问题语句输入专业问题处理系统中,经过专业领域分词模型进行重新分词;
将重新分词后的所述第一问题语句经过专业领域停用词表进行过滤去除停用词;
将经过过滤去除停用词处理后的所述第一问题语句输入专业领域项目对话模型中进行计算;
输出专业问题对应的答案。
优选地,所述第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式。
优选地,所述寒暄对话模型和所述专业领域项目对话模型通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立。
本发明还提供一种机器人区分专业问题和寒暄问题的系统,包括:
问题创建模块,用于获取机器人识别的第一问题语句;
问题分词模块,将所述第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,所述特殊分词模型为专业领域语料加寒暄对话语料训练出的特殊分词模型;
问题过滤模块,将所述第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,所述过滤词表为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;
问题判断模块,如果所述第三问题语句所在集合为空时,所述问题判断模块则判断所述第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以所述第二问题语句为初始问题语句输入所述寒暄问题处理系统中;如果所述第三问题语句所在集合为非空时,所述问题判断模块则判断所述第一问题语句为专业问题,从而进入专业问题处理系统中,此时以所述第一问题语句为初始问题语句输入所述专业问题处理系统中。
优选地,所述寒暄问题处理系统包括:
寒暄问题创建模块,用于获取机器人识别的所述第二问题语句;
寒暄问题过滤模块,将所述第二问题语句输入所述寒暄问题过滤模块中,经过用于处理寒暄语料的停用词表进行过滤处理;
寒暄问题判断模块,将经过过滤处理后的所述第二问题语句输入寒暄对话模型中进行计算;
寒暄问题输出模块,用于输出寒暄问题对应的答案。
优选地,所述专业问题处理系统包括:
专业问题创建模块,用于获取机器人识别的所述第一问题语句;
专业问题分词模块,将所述第一问题语句输入所述专业问题分词模块中,经过专业领域分词模型进行重新分词;
专业问题过滤模块,将重新分词处理后的所述第一问题语句经过专业领域停用词表进行过滤处理;
专业问题判断模块,将经过过滤处理后的所述第一问题语句输入专业领域项目对话模型中进行计算;
专业问题输出模块,用于输出专业问题对应的答案。
优选地,所述第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式。
优选地,所述寒暄对话模型和所述专业领域项目对话模型通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立。
本发明的机器人区分专业问题和寒暄问题的方法及系统具有以下有益技术效果:
本发明之方案通过在语言处理中引入特殊分词模型和结合了停用词表的过滤词表,增加的分词模型和过滤词表用以完成主题区分处理的功能,利用机器人能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率及问答效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅用于解释本发明的构思。
图1是本发明的机器人区分专业问题和寒暄问题的流程示意图;
图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图。
具体实施方式
下面将描述本发明的机器人区分专业问题和寒暄问题的方法及系统的实施例。
在此记载的实施例为本发明的特定的具体实施方式,用于说明本发明的构思,均是解释性和示例性的,不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。
本说明书的附图为示意图,辅助说明本发明的构思,示意性地表示各部分的形状及其相互关系。请注意,为了便于清楚地表现出本发明实施例的各部分的结构,各附图之间不一定按照相同的比例绘制。相同或相似的参考标记用于表示相同或相似的部分。
目前本领域中通常并不让同一个机器人同时具备寒暄聊天知识问答库和专业知识问答库,因此,会准备两个知识问答库,一个是用于寒暄聊天的知识问答库,另一个是机器人面向服务领域或对象的专业知识问答库。也就是说,从为机器人准备知识时就会分别准备机器人用于寒暄的知识和机器人用于专业领域对话的知识。机器人在回答一个问题的时候会把这个问题输入到寒暄知识问答库和专业知识问答库中去,找到两个库中最好的答案,也就是匹配度最高的一个答案。但是这样会造成成本资源的极大浪费,或者经常错误地回答问题语句的答案,从而既浪费资源又容易造成误会。
实施例一
图1是本发明的机器人区分专业问题和寒暄问题的流程示意图,如图1所示,本发明提供了一种机器人区分专业问题和寒暄问题的方法,包括以下步骤:
获取用于机器人识别的第一问题语句;
将第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,其中特殊分词模型(special segmenter)为专业领域语料加寒暄对话语料训练出的特殊分词模型;
将第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,其中过滤词表(fliter word list(incl.chat word list&project SW.list))为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;
如果第三问题语句所在集合为空时,则判断第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以第二问题语句为初始问题语句输入寒暄问题处理系统中;
如果第三问题语句所在集合为非空时,则判断第一问题语句为专业问题,从而进入专业问题处理系统中,此时以第一问题语句为初始问题语句输入专业问题处理系统中。
需要说明的是,分词处理是中文自然语言处理中的一个重要环节。对于通用语料,也就是说不是限定在某一专业领域的语料,在分词的时候是选择通用分词模型进行分词处理的,这一通用分词模型是通过人工分词标注的通用语料经过机器学习训练出来的。在处理某一专业领域语料时会使用专业分词模型,这一专业分词模型是通过人工分词标注的专业语料经过机器学习训练出来的,处理专业领域语料时使用专业分词模型比使用通用分词模型显然更准确,因为专业分词模型是为处理某一专业领域的语料特别训练的。
在自然语言处理时一般只准备通用分词模型和专业分词模型进行不同情况下的分词处理。在本发明中提到的特殊分词模型既不属于通用分词模型也不属于专业分词模型,它是机器人区分专业问题和寒暄问题的核心环节的重要组成部分。为了处理寒暄语料,可以制作训练寒暄分词模型。本发明中的特殊分词模型是通过人工标注专业领域语料加寒暄语料一起制作训练出的分词模型,在遇到专业领域句子或寒暄句子时这个特殊分词模型可以自动对它们进行按照训练语料人工标注的习惯进行正确的分词。
本发明的机器人区分专业问题和寒暄问题的系统中是利用分词模型和停用词表,进而可以区分可预知对话中的专业问题和寒暄问题。具体地,在语言处理中引入上述特殊分词模型(special segmenter)和结合了停用词表的过滤词表(fliter word list(incl.chat word list&project SW.list)),增加了分词模型和过滤词表用以完成主题区分处理的功能,利用它们能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率,还提高了问答系统整体的问答效率。
在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是寒暄问题语句,则进入寒暄问题处理系统进行处理问题,该寒暄问题处理系统包括:
获取用于机器人识别的第二问题语句;
将第二问题语句输入寒暄问题处理系统中,经过用于处理寒暄语料的停用词表(stopword list for chat)进行过滤处理;
将经过过滤处理后的第二问题语句输入寒暄对话模型中,通过该寒暄对话模型进行计算;
输出寒暄问题对应的答案。
在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是专业问题语句,则进入专业问题处理系统进行处理问题,该专业问题处理系统包括:
获取用于机器人识别的第一问题语句;
将第一问题语句输入专业问题处理系统中,经过专业领域分词模型(projectsegmenter)进行重新分词;
将重新分词后的第一问题语句经过专业领域停用词表(project SW.list)进行过滤去除停用词;
将经过过滤去除停用词处理后的第一问题语句输入专业领域项目对话模型中,通过该专业领域项目对话模型进行计算;
输出专业问题对应的答案,即通过模型回答出专业问题语句的答案。
需要说明的是,本发明的机器人区分专业问题和寒暄问题的方法中第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式,即本发明的机器人能够识别文本格式的问题。如果是第一问题语句是语音或图案形式的问题,则需要进行格式转换成文本格式,然后再输入本发明的方法或系统中。
在本发明的进一步实施例中,寒暄对话模型和专业领域项目对话模型均是通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立,当然还可以通过其他方式建立,只要能够处理寒暄问题或者专业问题即可。
需要说明的是,以下对本发明中出现的专业领域分词模型、专业领域停用词表、专业领域语料加寒暄对话语料训练出的特殊分词模型和用于处理寒暄语料的停用词表、过滤词表、寒暄对话模型和专业领域项目对话模型作简要说明。
特殊分词模型:针对项目主动收集专业领域语料和寒暄对话语料,然后进行人工分词标注,最后用制作完成的专业领域语料加寒暄对话语料训练出的分词模型;
过滤词表:用于建模的寒暄语料的词表加专业领域停用词表组成的词表为过滤词表,例如,过滤词表可以包括!、"、#、$、&、'、(、)、*、+、,、-、/、0、1、2、3、4、5、6、7、8、9、竟、笨、第、等、而、能、腾、自、臭、至、致、若、莫、血、被、要、见、让、论、该、请、诸,当然还可以包括其他未列举出的词或符号;
专业领域分词模型:用针对项目主动收集来的专业领域语料进行人工分词标注,然后用制作完成的专业领域语料训练出的分词模型;
寒暄语料停用词表:用于处理寒暄语料和寒暄对话的停用词表;
专业领域停用词表:用于处理专业领域语料和专业领域关于项目对话的停用词表;
专业领域项目对话模型:用针对项目主动收集来的专业领域项目对话语料建立的模型;
寒暄对话模型:用主动收集来的寒暄对话语料建立的模型。
实施例二
图1是本发明的机器人区分专业问题和寒暄问题的流程示意图,如图1所示,本发明还提供了一种机器人区分专业问题和寒暄问题的系统,包括:
问题创建模块,用于获取机器人识别的第一问题语句;
问题分词模块,将第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,其中特殊分词模型(special segmenter)为专业领域语料加寒暄对话语料训练出的特殊分词模型;
问题过滤模块,将第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,其中过滤词表(fliter word list(incl.chatword list&project SW.list))为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;
问题判断模块,如果第三问题语句所在集合为空时,问题判断模块则判断第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以第二问题语句为初始问题语句输入寒暄问题处理系统中;如果第三问题语句所在集合为非空时,问题判断模块则判断第一问题语句为专业问题,从而进入专业问题处理系统中,此时以第一问题语句为初始问题语句输入专业问题处理系统中。
本发明的机器人区分专业问题和寒暄问题的系统中是利用分词模型和停用词表,进而可以区分可预知对话中的专业问题和寒暄问题。具体地,在语言处理中引入上述特殊分词模型和结合了停用词表的过滤词表,增加了分词模型和过滤词表用以完成主题区分处理的功能,利用它们能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率和效率。
在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是寒暄问题语句,则进入寒暄问题处理系统进行处理问题,该寒暄问题处理系统包括:
寒暄问题创建模块,用于获取机器人识别的第二问题语句;
寒暄问题过滤模块,将第二问题语句输入寒暄问题过滤模块中,经过用于处理寒暄语料的停用词表(stopword list for chat)进行过滤处理;
寒暄问题判断模块,将经过过滤处理后的第二问题语句输入寒暄对话模型中,通过该寒暄对话模型进行计算;
寒暄问题输出模块,用于输出寒暄问题对应的答案。
在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是专业问题语句,则进入专业问题处理系统进行处理问题,该专业问题处理系统包括:
专业问题创建模块,用于获取机器人识别的第一问题语句;
专业问题分词模块,将第一问题语句输入专业问题分词模块中,经过专业领域分词模型(project segmenter)进行重新分词;
专业问题过滤模块,将重新分词处理后的第一问题语句经过专业领域停用词表(project SW.list)进行过滤处理;
专业问题判断模块,将经过过滤处理后的第一问题语句输入专业领域项目对话模型中,通过该专业领域项目对话模型进行计算;
专业问题输出模块,用于输出专业问题对应的答案。
需要说明的是,本发明的机器人区分专业问题和寒暄问题的方法中第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式,即本发明的机器人能够识别文本格式的问题。如果是第一问题语句是语音或图案形式的问题,则需要进行格式转换成文本格式,然后再输入本发明的方法系统中。
在本发明的进一步实施例中,寒暄对话模型和专业领域项目对话模型均是通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立,当然还可以通过其他方式建立,只要能够处理寒暄问题或者专业问题即可。
需要说明的是,以下对本发明中出现的专业领域分词模型、专业领域停用词表、专业领域语料加寒暄对话语料训练出的特殊分词模型和用于处理寒暄语料的停用词表、过滤词表、寒暄对话模型和专业领域项目对话模型作简要说明。
特殊分词模型:针对项目主动收集专业领域语料和寒暄对话语料,然后进行人工分词标注,最后用制作完成的专业领域语料加寒暄对话语料训练出的分词模型;
过滤词表:用于建模的寒暄语料的词表加专业领域停用词表组成的词表为过滤词表,例如,过滤词表可以包括!、"、#、$、&、'、(、)、*、+、,、-、/、0、1、2、3、4、5、6、7、8、9、竟、笨、第、等、而、能、腾、自、臭、至、致、若、莫、血、被、要、见、让、论、该、请、诸,当然还可以包括其他未列举出的词或符号;
专业领域分词模型:用针对项目主动收集来的专业领域语料进行人工分词标注,然后用制作完成的专业领域语料训练出的分词模型;
寒暄语料停用词表:用于处理寒暄语料和寒暄对话的停用词表;
专业领域停用词表:用于处理专业领域语料和专业领域关于项目对话的停用词表;
专业领域项目对话模型:用针对项目主动收集来的专业领域项目对话语料建立的模型;
寒暄对话模型:用主动收集来的寒暄对话语料建立的模型。
以上对本发明的机器人区分专业问题和寒暄问题的方法及系统的实施方式进行了说明。对于本发明的机器人区分专业问题和寒暄问题的方法及系统的具体特征如具体的建模方法可以根据上述披露的特征的作用进行具体设计,这些设计均是本领域技术人员能够实现的。而且,上述披露的各技术特征并不限于已披露的与其它特征的组合,本领域技术人员还可根据发明之目的进行各技术特征之间的其它组合,以实现本发明之目的为准。

Claims (10)

1.一种机器人区分专业问题和寒暄问题的方法,其特征在于,包括以下步骤:
获取用于机器人识别的第一问题语句;
将所述第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,所述特殊分词模型为专业领域语料加寒暄对话语料训练出的特殊分词模型;
将所述第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,所述过滤词表为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;
如果所述第三问题语句所在集合为空时,则判断所述第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以所述第二问题语句为初始问题语句输入所述寒暄问题处理系统中;
如果所述第三问题语句所在集合为非空时,则判断所述第一问题语句为专业问题,从而进入专业问题处理系统中,此时以所述第一问题语句为初始问题语句输入所述专业问题处理系统中。
2.如权利要求1所述的机器人区分专业问题和寒暄问题的方法,其特征在于,所述寒暄问题处理系统包括:
获取用于机器人识别的所述第二问题语句;
将所述第二问题语句输入寒暄问题处理系统中,经过用于处理寒暄语料的停用词表进行过滤处理;
将经过过滤处理后的所述第二问题语句输入寒暄对话模型中进行计算;
输出寒暄问题对应的答案。
3.如权利要求1所述的机器人区分专业问题和寒暄问题的方法,其特征在于,所述专业问题处理系统包括:
获取用于机器人识别的所述第一问题语句;
将所述第一问题语句输入专业问题处理系统中,经过专业领域分词模型进行重新分词;
将重新分词后的所述第一问题语句经过专业领域停用词表进行过滤去除停用词;
将经过过滤去除停用词处理后的所述第一问题语句输入专业领域项目对话模型中进行计算;
输出专业问题对应的答案。
4.如权利要求1所述的机器人区分专业问题和寒暄问题的方法,其特征在于,所述第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式。
5.如权利要求1所述的机器人区分专业问题和寒暄问题的方法,其特征在于,所述寒暄对话模型和所述专业领域项目对话模型通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立。
6.一种机器人区分专业问题和寒暄问题的系统,其特征在于,包括:
问题创建模块,用于获取机器人识别的第一问题语句;
问题分词模块,将所述第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,所述特殊分词模型为专业领域语料加寒暄对话语料训练出的特殊分词模型;
问题过滤模块,将所述第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,所述过滤词表为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;
问题判断模块,如果所述第三问题语句所在集合为空时,所述问题判断模块则判断所述第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以所述第二问题语句为初始问题语句输入所述寒暄问题处理系统中;如果所述第三问题语句所在集合为非空时,所述问题判断模块则判断所述第一问题语句为专业问题,从而进入专业问题处理系统中,此时以所述第一问题语句为初始问题语句输入所述专业问题处理系统中。
7.如权利要求6所述的机器人区分专业问题和寒暄问题的系统,其特征在于,所述寒暄问题处理系统包括:
寒暄问题创建模块,用于获取机器人识别的所述第二问题语句;
寒暄问题过滤模块,将所述第二问题语句输入所述寒暄问题过滤模块中,经过用于处理寒暄语料的停用词表进行过滤处理;
寒暄问题判断模块,将经过过滤处理后的所述第二问题语句输入寒暄对话模型中进行计算;
寒暄问题输出模块,用于输出寒暄问题对应的答案。
8.如权利要求6所述的机器人区分专业问题和寒暄问题的系统,其特征在于,所述专业问题处理系统包括:
专业问题创建模块,用于获取机器人识别的所述第一问题语句;
专业问题分词模块,将所述第一问题语句输入所述专业问题分词模块中,经过专业领域分词模型进行重新分词;
专业问题过滤模块,将重新分词处理后的所述第一问题语句经过专业领域停用词表进行过滤处理;
专业问题判断模块,将经过过滤处理后的所述第一问题语句输入专业领域项目对话模型中进行计算;
专业问题输出模块,用于输出专业问题对应的答案。
9.如权利要求6所述的机器人区分专业问题和寒暄问题的系统,其特征在于,所述第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式。
10.如权利要求6所述的机器人区分专业问题和寒暄问题的系统,其特征在于,所述寒暄对话模型和所述专业领域项目对话模型通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立。
CN201710656545.1A 2017-08-03 2017-08-03 机器人区分专业问题和寒暄问题的方法及系统 Active CN107423432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710656545.1A CN107423432B (zh) 2017-08-03 2017-08-03 机器人区分专业问题和寒暄问题的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710656545.1A CN107423432B (zh) 2017-08-03 2017-08-03 机器人区分专业问题和寒暄问题的方法及系统

Publications (2)

Publication Number Publication Date
CN107423432A true CN107423432A (zh) 2017-12-01
CN107423432B CN107423432B (zh) 2020-05-12

Family

ID=60437493

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710656545.1A Active CN107423432B (zh) 2017-08-03 2017-08-03 机器人区分专业问题和寒暄问题的方法及系统

Country Status (1)

Country Link
CN (1) CN107423432B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241269A (zh) * 2018-07-27 2019-01-18 深圳追科技有限公司 任务型机器人词槽填充方法
CN110349472A (zh) * 2018-04-02 2019-10-18 当家移动绿色互联网技术集团有限公司 一种虚拟驾驶应用中虚拟方向盘和真实方向盘对接方法
CN111611354A (zh) * 2019-02-26 2020-09-01 北京嘀嘀无限科技发展有限公司 人机对话控制方法、装置、服务器及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100191811A1 (en) * 2009-01-26 2010-07-29 Nokia Corporation Social Networking Runtime
US8037147B1 (en) * 2005-04-07 2011-10-11 Aol Inc. Using automated agents to facilitate chat communications
CN104331523A (zh) * 2014-11-27 2015-02-04 韩慧健 一种基于概念对象模型的问句检索方法
CN105183716A (zh) * 2015-09-21 2015-12-23 上海智臻智能网络科技股份有限公司 一种基于抽象语义的智能交互方法
CN105630938A (zh) * 2015-12-23 2016-06-01 深圳市智客网络科技有限公司 一种智能问答系统
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN106294321A (zh) * 2016-08-04 2017-01-04 北京智能管家科技有限公司 一种特定领域的对话挖掘方法及装置
CN106682977A (zh) * 2015-11-10 2017-05-17 南京华设科技股份有限公司 财税人工智能系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8037147B1 (en) * 2005-04-07 2011-10-11 Aol Inc. Using automated agents to facilitate chat communications
US20100191811A1 (en) * 2009-01-26 2010-07-29 Nokia Corporation Social Networking Runtime
CN104331523A (zh) * 2014-11-27 2015-02-04 韩慧健 一种基于概念对象模型的问句检索方法
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN105183716A (zh) * 2015-09-21 2015-12-23 上海智臻智能网络科技股份有限公司 一种基于抽象语义的智能交互方法
CN106682977A (zh) * 2015-11-10 2017-05-17 南京华设科技股份有限公司 财税人工智能系统
CN105630938A (zh) * 2015-12-23 2016-06-01 深圳市智客网络科技有限公司 一种智能问答系统
CN106294321A (zh) * 2016-08-04 2017-01-04 北京智能管家科技有限公司 一种特定领域的对话挖掘方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349472A (zh) * 2018-04-02 2019-10-18 当家移动绿色互联网技术集团有限公司 一种虚拟驾驶应用中虚拟方向盘和真实方向盘对接方法
CN109241269A (zh) * 2018-07-27 2019-01-18 深圳追科技有限公司 任务型机器人词槽填充方法
CN111611354A (zh) * 2019-02-26 2020-09-01 北京嘀嘀无限科技发展有限公司 人机对话控制方法、装置、服务器及可读存储介质
CN111611354B (zh) * 2019-02-26 2023-09-29 北京嘀嘀无限科技发展有限公司 人机对话控制方法、装置、服务器及可读存储介质

Also Published As

Publication number Publication date
CN107423432B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN106328166B (zh) 人机对话异常检测系统及方法
CN107247868B (zh) 一种人工智能辅助问诊系统
Gilligan Reply by Carol Gilligan
CN104137097B (zh) 谓语模板收集装置以及特定短语对收集装置
CN107329967A (zh) 基于深度学习的问答系统以及方法
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN106295807A (zh) 一种信息处理的方法及装置
CN107423432A (zh) 机器人区分专业问题和寒暄问题的方法及系统
CN108228568B (zh) 一种数学题目语义理解方法
CN106851216A (zh) 一种基于人脸和语音识别的课堂行为监控系统及方法
CN106777013A (zh) 对话管理方法和装置
CN107038154A (zh) 一种文本情感识别方法和装置
CN107464568A (zh) 基于三维卷积神经网络文本无关的说话人识别方法及系统
CN110019698A (zh) 一种医学问答的智能服务方法及系统
CN105868179A (zh) 一种智能问答方法及装置
CN107918633A (zh) 基于语义分析技术的敏感舆情内容识别方法和预警系统
CN108388553B (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN106710586A (zh) 一种语音识别引擎自动切换方法和装置
CN108664472A (zh) 自然语言处理方法、装置及其设备
CN106815321A (zh) 基于智能聊天机器人的聊天方法及装置
CN106775665A (zh) 基于情绪指标的情绪状态变化信息的获取方法及装置
CN110532387A (zh) 一种基于开放性问答文本的抑郁症辅助检测方法
CN110210036A (zh) 一种意图识别方法及装置
CN105224920A (zh) 一种将线下转入线上的学习测试诊断系统
CN109166605A (zh) 基于ai的老人分诊系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 307, 3 / F, supporting public building, Mantingfangyuan community, qingyanli, Haidian District, Beijing 100086

Patentee after: Beijing Wuyi Vision digital twin Technology Co.,Ltd.

Address before: Room 307, 3 / F, supporting public building, Mantingfangyuan community, qingyanli, Haidian District, Beijing 100086

Patentee before: DANGJIA MOBILE GREEN INTERNET TECHNOLOGY GROUP Co.,Ltd.

CP01 Change in the name or title of a patent holder