CN107133305A - 一种聊天机器人知识库自动构建装置及其方法 - Google Patents
一种聊天机器人知识库自动构建装置及其方法 Download PDFInfo
- Publication number
- CN107133305A CN107133305A CN201710292116.0A CN201710292116A CN107133305A CN 107133305 A CN107133305 A CN 107133305A CN 201710292116 A CN201710292116 A CN 201710292116A CN 107133305 A CN107133305 A CN 107133305A
- Authority
- CN
- China
- Prior art keywords
- language material
- knowledge base
- similarity
- categories
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种聊天机器人知识库自动构建装置及其方法,其中,该知识库自动构建装置中包括:语料获取模块,用于获取原始语料,原始语料中包括多个文本句;语料分类模块,用于根据预设规则对语料获取模块获取的原始语料进行分类,得到各类别对应的子语料;语料存储模块,用于根据语料分类模块的分类结果将各类别对应的子语料存储入知识库中相应的存储区域。其通过语料分类模块对获取的原始语料进行自动分类,并将分类得到的子语料存储至相应类别的存储区域,无需人工将原始语料进行分类,大大减少了人力物力,提高了知识库建立的效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种聊天机器人知识库自动构建装置及其方法。
背景技术
现今,各行业需要承担的用户咨询/反馈解答的工作越来越多,如,在互联网行业中的售后或者客服服务。随着用户数量的爆炸式增长,无法再采用人工的方式对所有用户的咨询进行一一回答,此外,用户的问题大多集中在某些特定的知识点上,人工回复很多时候都是在进行重复性地劳动,严重浪费人力,以此,基于客服服务的聊天机器人应运而生,用以辅助人工进行问题的回复。
ALICE(Artificial Linguistic Internet Computer Entity,人工语言计算机实体)是美国Richard教授基于规则实现的一个英语自动聊天机器人,其知识库根据AIML(Artificial Intelligence Markup Language,人工智能标记语言)编写,曾在2000年、2001年和2004年的勒布纳人工智能奖角逐中三次获胜,且目前有多种语言的开源版本存在。
聊天机器人答复的优劣很大程度上取决于其内部知识库的完善程度,而基于ALICE BOT的聊天机器人,知识库都是用AIML人工构建的,要达到比较好的效果,必然要求知识库很庞大;另外,考虑到语法的多样性,相同的意思可能有多种表达方法,知识库的规模会成倍的增长;此外,目前公开的中文语料库较少,导致基于ALICE BOT实现的中文聊天机器人很少或者聊天效果较差。若要重新人工构建AIML知识库,无疑工作量巨大,需要耗费大量的人力物力。
发明内容
针对上述问题,本发明提供了一种聊天机器人知识库自动构建装置及其方法,有效解决了现有聊天机器人知识库的建立需要耗费大量人力物力的技术问题。
本发明提供的技术方案如下:
一种聊天机器人知识库自动构建装置,包括:
语料获取模块,用于获取原始语料,所述原始语料中包括多个文本句;
语料分类模块,用于根据预设规则对语料获取模块获取的原始语料进行分类,得到各类别对应的子语料;
语料存储模块,用于根据语料分类模块的分类结果将各类别对应的子语料存储入知识库中相应的存储区域。
在本技术方案中,语料分类模块对获取的原始语料进行自动分类,并将分类得到的子语料存储至相应类别的存储区域,无需人工将原始语料进行分类,大大减少了人力物力,提高了知识库建立的效率。
进一步优选地,在所述语料获取模块中,获取的原始语料为问答对式语料;
在所述语料分类模块中,根据预设规则依次对原始语料问答对中的问题进行分类,所述子语料中包括各类别对应的问题及其应答内容。
在本技术方案中,获取到以问答对方式的原始语料之后,根据问答对中的问题进行分类,便于聊天机器人根据分类快速查找到相应问题的应答内容,提高聊天机器人的应答速度和应答准确率。
进一步优选地,在语料分类模块中包括:
拆分单元,用于将需要进行分类的文本句进行拆分得到若干分词;
查找单元,根据各类别中预设的关键词在拆分单元拆分得到的分词中查找;
归类单元,当查找单元查找到与某一类别中预设的关键词相同的分词,归类单元将该文本句归类至该类别。
在本技术方案中,在分类过程中,根据文本句中是否出现各类别中预设的关键词判定其所属类别,简单方便,实现原始语料中各文本句的快速分类。
进一步优选地,所述语料分类模块中还包括:
相似度运算单元,当查找单元未查找到与各类别中预设的关键词相同的分词,相似度运算单元分别计算各分词与各类别中预设的关键词之间的相似度;
判断单元,用于根据相似度运算单元的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,所述归类单元将该文本句归类至该类别。
在本技术方案中,通过计算文本句中各分词与预设的关键字之间的相似度对文本句进行分类,进一步完善文本句分类的准确度。
进一步优选地,所述语料分类模块中还包括类别获取单元,
当判断单元判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,则类别获取单元获取上一文本句所属类别,归类单元将该文本句归类之上一文本句所属类别。
在本技术方案中,考虑聊天机器人在自动聊天的过程中,用户问答的连续性和相关性,将不能判断所属类别的文本句归类为上一文本句所属类别,实现对原始语料的快速分类,提高聊天机器人在自动聊天过程中的反馈速度。
进一步优选地,所述知识库自动构建装置中还包括:
语料处理模块,用于对语料分类模块分类得到的各子语料进行自然语言处理得到标准子语料;
所述语料存储模块将语料处理模块处理得到的标准子语料存储入知识库中相应的存储区域。
在本技术方案中,为了形成更规范的知识库,在将子语料进行存储之前,分别对各子语料中包括的文本句进行自然语言处理。
本发明还提供了一种聊天机器人知识库自动构建方法,包括:
S1获取原始语料,所述原始语料中包括多个文本句;
S2根据预设规则对所述原始语料进行分类,得到各类别对应的子语料;
S3将各类别对应的子语料存储入知识库中相应的类别区域。
在本技术方案中,对获取的原始语料进行自动分类,并将分类得到的子语料存储至相应类别的存储区域,无需人工将原始语料进行分类,大大减少了人力物力,提高了知识库建立的效率。
进一步优选地,在步骤S2中具体包括:
S21将需要进行分类的文本句进行拆分得到若干分词;
S22根据各类别中预设的关键词在拆分得到的分词中查找,若查找到与某一类别中预设的关键词相同的分词,跳转至步骤S23;
S23该文本句归类至该类别。
在本技术方案中,在分类过程中,根据文本句中是否出现各类别中预设的关键词判定其所属类别,简单方便,实现原始语料中各文本句的快速分类。
进一步优选地,在步骤S22中,若未查找到与各类别中预设的关键词相同的分词,跳转至步骤S24;
S24分别计算各分词与各类别中预设的关键词之间的相似度;
S25判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词,若存在,跳转至步骤S23。
在本技术方案中,通过计算文本句中各分词与预设的关键字之间的相似度对文本句进行分类,进一步完善文本句分类的准确度。
进一步优选地,在步骤S25中,若判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,跳转至步骤S26;
S26获取上一文本句所属类别,并跳转至步骤S23。
在本技术方案中,考虑聊天机器人在自动聊天的过程中,用户问答的连续性和相关性,将不能判断所属类别的文本句归类为上一文本句所属类别,实现对原始语料的快速分类,提高聊天机器人在自动聊天过程中的反馈速度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对上述特性、技术特征、优点及其实现方式予以进一步说明。
图1为本发明中知识库自动构建装置一种实施方式示意图;
图2为本发明中语料分类模块一种实施方式示意图;
图3为本发明中语料分类模块另一种实施方式示意图;
图4为本发明中语料分类模块另一种实施方式示意图;
图5为本发明中知识库自动构建装置另一种实施方式示意图;
图6为本发明中知识库自动构建方法一种实施方式流程示意图;
图7为本发明中知识库自动构建方法另一种实施方式流程示意图;
图8为本发明中知识库自动构建方法另一种实施方式流程示意图;
图9为本发明中知识库自动构建方法另一种实施方式流程示意图。
附图标记:
100-知识库自动构建装置,110-语料获取模块,120-语料分类模块,130-语料存储模块,121-拆分单元,122-查找单元,123-归类单元,124-相似度运算单元,125-判断单元,126-类别获取单元,140-语料处理模块
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
如图1所示为本发明中聊天机器人知识库自动构建装置100一种实施方式示意图,从图中可以看出,在该知识库自动构建装置100中包括:语料获取模块110、语料分类模块120以及语料存储模块130,其中,语料分类模块120分别与语料获取模块110和语料存储模块130连接。
在知识库的建立过程中,首先,语料获取模块110获取包括多个文本句的原始语料;之后,语料分类模块120根据预设规则对语料获取模块110获取的原始语料进行分类,得到各类别对应的子语料;最后,语料存储模块130根据语料分类模块120的分类结果将各类别对应的子语料存储入知识库中相应的存储区域,实现对原始语料的自动分类,大大减少了人力物力,提高了知识库建立的效率。
在本实施方式中,原始语料的来源包括现有的问答对式语料,如,针对该聊天机器人应用领域的客服聊天记录、日常对话、公司FAQ(Frequently Asked Questions,经常问到的问题)、产品手册、甚至电影电视台词等,将这些现有的问答对式语料进行分类存储入知识库,不仅大量减少人力,同时提高对现有资源的利用率,快速扩充知识库的规模。当然,该原始语料也可以来源于人工输入的问答式对话,以对现有问答式语料进行补充,最大程度的完善知识库,提高聊天机器人的智能化程度。
基于此,通过语料获取模块110获取了原始语料之后,语料分类模块120根据预设规则依次对原始语料问答对中的问题进行分类,其中,子语料中包括各类别对应的问题及其应答内容。此外,在知识库构建之前,使用配置模块对预设规则进行设定,具体,这里的预设规则具体为语料分类模块120对获取的原始语料进行分类的规则,包括分类的类别、将各文本句归类至相应类别的方法等。在一实例中,假若该聊天机器人应用于空调产品行业,且在创建知识库之前,预先设定5个类别,分别为“价格”、“安装”“发货”“售后”以及“退货”。若获取的原始语料中包括n对问答,即Diag={Q1:A1,Q2:A2,...,Qn:An},且在判断判断过后将Q1~Qk归类为“价格”类,将Q(k+1)~Q(m)归类为“发货”类,将Q(m+1)~Q(n)归类为“售后”类,则之后将对应的问答对存储在知识库中相应区域,实现原始语料的自动分类和存储,对知识库进行扩充。以此,后续用户在问产品价格等问题时,聊天机器人就直接在对应“价格”类别中查找答案,而后续咨询价格相关的可能性比较大,仍旧优先在“价格”类别中查找,查找不到才在其他类别中查找,以此提高查找效率。
对上述实施方式进行改进得到本实施方式,在本实施方式中,知识库自动构建装置100中包括:语料获取模块110、语料分类模块120以及语料存储模块130,语料分类模块120中包括:拆分单元121、查找单元122以及归类单元123,其中,查找单元122分别与拆分单元121和归类单元123连接,如图2所示。
在知识库的建立过程中,通过语料获取模块110获取包括多个文本句的原始语料之后,语料分类模块120随即统计该原始语料中包括的需要分类的文本句(具体为问答式语料中的问题),并从上之下依次对各文本句进行归类。具体,当需要对某一文本句进行归类时,首先通过拆分单元121将其进行拆分得到若干分词;之后,查找单元122根据各类别中预设的关键词在拆分单元121拆分得到的分词中查找,当查找单元122查找到与某一类别中预设的关键词相同的分词,则归类单元123将该文本句归类至该类别,以此依次将原始语料中的各文本句进行分类存储,简单方便。当然,在本实施方式中,为了提高查找效率,在对文本句进行拆分得到分词之后进行除停用词(如“的”等)、除代词(如“我”、“你”等)等操作。
在一实例中,假若该聊天机器人应用于空调产品行业,且在创建知识库之前,预先设定5个类别,分别为“价格”、“安装”“发货”“售后”以及“退货”,且在每个类别中预设若干关键词,便于归类,如在类别“价格”中设定关键词“多少钱”、“怎么卖”、“价格”、“价钱”等。
基于此,若当前需要归类的文本句为“型号A的空调卖多少钱”,拆分单元121对其进行拆分得到分词“型号A”、“的”、“空调”、“卖”以及“多少钱”之后,查找单元122根据得到的分词在各类别预存的关键词中进行查找,基于上述设定,查找的结果为分词“多少钱”存在于“价格”类别中,以此将该文本句及其应答内容归类为“价格”类别并进行存储。
对上述实施方式进行改进得到本实施方式,在本实施方式中,知识库自动构建装置100中包括:语料获取模块110、语料分类模块120以及语料存储模块130,语料分类模块120中包括拆分单元121、查找单元122以及归类单元123之外,还包括相似度运算单元124和判断单元125,其中,查找单元122分别与拆分单元121和归类单元123连接,相似度运算单元124与查找单元122连接,判断单元分别与相似度运算单元124和归类单元123连接,如图3所示。
在知识库的建立过程中,通过语料获取模块110获取包括多个文本句的原始语料之后,语料分类模块120随即统计该原始语料中包括的需要分类的文本句(具体为问答式语料中的问题),并从上之下依次对各文本句进行归类。具体,当需要对某一文本句进行归类时,首先通过拆分单元121将其进行拆分得到若干分词;之后,查找单元122根据各类别中预设的关键词在拆分单元121拆分得到的分词中查找,当查找单元122查找到与某一类别中预设的关键词相同的分词,则归类单元123将该文本句归类至该类别;当查找单元122未查找到与各类别中预设的关键词相同的分词,则相似度运算单元124分别计算各分词与各类别中预设的关键词之间的相似度,以此判断单元125根据相似度运算单元124的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,归类单元123将该文本句归类至该类别。具体,在本实施方式中,上述预设相似度根据实际情况进行设定,如在一实例中,将预设相似度设定为80%;在另一实例中,将预设相似度设定为85%,在此不做具体限定。此外,对于分词与预设的关键词之间相似度的运算方法,在此同样不做具体限定,如,可以使用基于语义词典(Wordnet)的词汇相似度计算方法、基于语料(Wikipedia)统计的词汇相似度计算方法等,根据实际情况进行设定。
在一实例中,假若该聊天机器人应用于空调产品行业,且在创建知识库之前,预先设定5个类别,分别为“价格”、“安装”“发货”“售后”以及“退货”,且在每个类别中预设若干关键词,便于归类,如在类别“价格”中设定关键词“多少钱”、“怎么卖”、“价格”、“价钱”等。
基于此,若当前需要归类的文本句为“型号A的空调会降价吗”,拆分单元121对其进行拆分得到分词“型号A”、“的”、“空调”、“会”、“降价”以及“吗”之后,查找单元122根据得到的分词在各类别预存的关键词中进行查找,基于上述设定,在设定的5个类别中均未查找到与分词相同的关键词,则进一步计算分词与各类别中预设的关键词之间的相似度,若计算得到分词“降价”与“价格”类别中的关键词“价钱”之间的相似度为85%大于预设相似度80%,则将该文本句及其应答内容归类为“价格”类别并进行存储。
对上述实施方式进行改进得到本实施方式,在本实施方式中,知识库自动构建装置100中包括:语料获取模块110、语料分类模块120以及语料存储模块130,语料分类模块120中包括拆分单元121、查找单元122、归类单元123、相似度运算单元124和判断单元之外,还包括类别获取单元126,其中,查找单元122与拆分单元121连接,相似度运算单元124与查找单元122连接,判断单元分别与相似度运算单元124和归类单元123连接,如图4所示。
在知识库的建立过程中,通过语料获取模块110获取包括多个文本句的原始语料之后,语料分类模块120随即统计该原始语料中包括的需要分类的文本句(具体为问答式语料中的问题),并从上之下依次对各文本句进行归类。具体,当需要对某一文本句进行归类时,首先通过拆分单元121将其进行拆分得到若干分词;之后,查找单元122根据各类别中预设的关键词在拆分单元121拆分得到的分词中查找,当查找单元122查找到与某一类别中预设的关键词相同的分词,则归类单元123将该文本句归类至该类别;当查找单元122未查找到与各类别中预设的关键词相同的分词,则相似度运算单元124分别计算各分词与各类别中预设的关键词之间的相似度,以此判断单元根据相似度运算单元124的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,归类单元123将该文本句归类至该类别;当判断单元125判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,则类别获取单元126获取上一文本句所属类别,归类单元123将该文本句归类之上一文本句所属类别。
在一实例中,假若该聊天机器人应用于空调产品行业,且在创建知识库之前,预先设定5个类别,分别为“价格”、“安装”“发货”“售后”以及“退货”,且在每个类别中预设若干关键词,便于归类,如在类别“价格”中设定关键词“多少钱”、“怎么卖”、“价格”、“价钱”等。
语料分类模块120依次对获取的原始语料中各文本句Q1~Qn进行归类,若判定Q1中出现“价格”类别中预设的关键词,则标记Q1为“价格”类别问答的起始语句。此后,依次处理后续文本句,若针对Q(i)无法判定其所属类别(在各类别中预设的关键词中未找到相应分词,且计算各分词与关键词之间的相似度都小于预设相似度),考虑到用户问答的连续性和相关性,则默认其仍然属于Q(i-1)所属类别。假若,判定Q(i)属于“发货”类别,则从Q1至Q(i-1)间的对话被划分为“价格”类,继续处理Q(i+1)直至Qn,以此将上述n个问答的对话切分成连续的包含多个类别的对话段(上述子语料)。
对上述实施方式进行改进得到本实施方式,如图5所示,在本实施方式中,知识库自动构建装置100中包括语料获取模块110、语料分类模块120以及语料存储模块130之外,还包括语料处理模块140。
在本实施方式中,考虑到自然语言的多样性,语料分类模块120分类出来的各个类别中包括的子语料会出现不规范的情况,对应的语法、句法规则较多,不利于后续聊天机器人的查找,在进行存储之前,语料处理模块140对语料分类模块120分类得到的各子语料进行自然语言处理得到标准子语料;最后,语料存储模块130根据语料分类模块120的分类结果将各类别对应的子语料存储入知识库中相应的存储区域。更具体来说,语料处理模块140进行的自然语言处理包括分词、词替换、语序调整、句法语法分析等。
如图6所示为本发明提供的聊天机器人知识库自动构建方法一种实施方式流程示意图,从图中可以看出,在该知识库自动构建方法中包括:S1获取原始语料,原始语料中包括多个文本句;S2根据预设规则对原始语料进行分类,得到各类别对应的子语料;S3将各类别对应的子语料存储入知识库中相应的类别区域。
在本实施方式中,原始语料的来源包括现有的问答对式语料,如,针对该聊天机器人应用领域的客服聊天记录、日常对话、公司FAQ(Frequently Asked Questions,经常问到的问题)、产品手册、甚至电影电视台词等,将这些现有的问答对式语料进行分类存储入知识库,不仅大量减少人力,同时提高对现有资源的利用率,快速扩充知识库的规模。当然,该原始语料也可以来源于人工输入的问答式对话,以对现有问答式语料进行补充,最大程度的完善知识库,提高聊天机器人的智能化程度。
基于此,获取了原始语料之后,根据预设规则依次对原始语料问答对中的问题进行分类,其中,子语料中包括各类别对应的问题及其应答内容。此外,在知识库构建之前,对预设规则进行设定,具体,这里的预设规则具体为对获取的原始语料进行分类的规则,包括分类的类别、将各文本句归类至相应类别的方法等。
对上述实施方式进行改进得到本实施方式,如图7所示,在本实施方式中,该知识库自动构建方法中包括:S1获取原始语料,原始语料中包括多个文本句;S21将需要进行分类的文本句进行拆分得到若干分词;S22根据各类别中预设的关键词在拆分得到的分词中查找,若查找到与某一类别中预设的关键词相同的分词,跳转至步骤S23;S23该文本句归类至该类别;S3将各类别对应的子语料存储入知识库中相应的类别区域。
在本实施方式中,获取包括多个文本句的原始语料之后,随即统计该原始语料中包括的需要分类的文本句(具体为问答式语料中的问题),并从上之下依次对各文本句进行归类。具体,当需要对某一文本句进行归类时,首先将其进行拆分得到若干分词;之后,根据各类别中预设的关键词在拆分得到的分词中查找,当查找到与某一类别中预设的关键词相同的分词,则将该文本句归类至该类别,以此依次将原始语料中的各文本句进行分类存储,简单方便。
对上述实施方式进行改进得到本实施方式,如图8所示,在本实施方式中,该知识库自动构建方法中包括:S1获取原始语料,原始语料中包括多个文本句;S21将需要进行分类的文本句进行拆分得到若干分词;S22根据各类别中预设的关键词在拆分得到的分词中查找,若查找到与某一类别中预设的关键词相同的分词,跳转至步骤S23,若未查找到与各类别中预设的关键词相同的分词,跳转至步骤S24;S23该文本句归类至该类别;S24分别计算各分词与各类别中预设的关键词之间的相似度;S25判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词,若存在,跳转至步骤S23;S3将各类别对应的子语料存储入知识库中相应的类别区域。
在本实施方式中,获取包括多个文本句的原始语料之后,随即统计该原始语料中包括的需要分类的文本句(具体为问答式语料中的问题),并从上之下依次对各文本句进行归类。具体,当需要对某一文本句进行归类时,首先将其进行拆分得到若干分词;之后,根据各类别中预设的关键词在拆分得到的分词中查找,当查找到与某一类别中预设的关键词相同的分词,则将该文本句归类至该类别;当未查找到与各类别中预设的关键词相同的分词,则分别计算各分词与各类别中预设的关键词之间的相似度,以此根据相似度运算单元的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,将该文本句归类至该类别。具体,在本实施方式中,上述预设相似度根据实际情况进行设定,如在一实例中,将预设相似度设定为80%;在另一实例中,将预设相似度设定为85%,在此不做具体限定。此外,对于分词与预设的关键词之间相似度的运算方法,在此同样不做具体限定,如,可以使用基于语义词典(Wordnet)的词汇相似度计算方法、基于语料(Wikipedia)统计的词汇相似度计算方法等,根据实际情况进行设定。
对上述实施方式进行改进得到本实施方式,如图9所示,在本实施方式中,该知识库自动构建方法中包括:S1获取原始语料,原始语料中包括多个文本句;S21将需要进行分类的文本句进行拆分得到若干分词;S22根据各类别中预设的关键词在拆分得到的分词中查找,若查找到与某一类别中预设的关键词相同的分词,跳转至步骤S23,若未查找到与各类别中预设的关键词相同的分词,跳转至步骤S24;S23该文本句归类至该类别;S24分别计算各分词与各类别中预设的关键词之间的相似度;S25判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词,若存在,跳转至步骤S23;若判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,跳转至步骤S26;S26获取上一文本句所属类别,并跳转至步骤S23;S3将各类别对应的子语料存储入知识库中相应的类别区域。
在本实施方式中,获取包括多个文本句的原始语料之后,随即统计该原始语料中包括的需要分类的文本句(具体为问答式语料中的问题),并从上之下依次对各文本句进行归类。具体,当需要对某一文本句进行归类时,首先将其进行拆分得到若干分词;之后,根据各类别中预设的关键词在拆分得到的分词中查找,当查找到与某一类别中预设的关键词相同的分词,则将该文本句归类至该类别;当未查找到与各类别中预设的关键词相同的分词,则分别计算各分词与各类别中预设的关键词之间的相似度,以此根据相似度运算单元的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,将该文本句归类至该类别;当判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,则获取上一文本句所属类别,将该文本句归类之上一文本句所属类别。
此外,在上述实施方式中,考虑到自然语言的多样性,分类出来的各个类别中包括的子语料会出现不规范的情况,对应的语法、句法规则较多,不利于后续聊天机器人的查找,在进行存储之前,还包括对分类得到的各子语料进行自然语言处理得到标准子语料的步骤;之后根据分类结果将各类别对应的子语料存储入知识库中相应的存储区域。更具体来说,上述自然语言处理包括分词、词替换、语序调整、句法语法分析等。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种聊天机器人知识库自动构建装置,其特征在于,所述知识库自动构建装置中包括:
语料获取模块,用于获取原始语料,所述原始语料中包括多个文本句;
语料分类模块,用于根据预设规则对语料获取模块获取的原始语料进行分类,得到各类别对应的子语料;
语料存储模块,用于根据语料分类模块的分类结果将各类别对应的子语料存储入知识库中相应的存储区域。
2.如权利要求1所述的知识库自动构建装置,其特征在于,
在所述语料获取模块中,获取的原始语料为问答对式语料;
在所述语料分类模块中,根据预设规则依次对原始语料问答对中的问题进行分类,所述子语料中包括各类别对应的问题及其应答内容。
3.如权利要求1或2所述的知识库自动构建装置,其特征在于,在语料分类模块中包括:
拆分单元,用于将需要进行分类的文本句进行拆分得到若干分词;
查找单元,根据各类别中预设的关键词在拆分单元拆分得到的分词中查找;
归类单元,当查找单元查找到与某一类别中预设的关键词相同的分词,归类单元将该文本句归类至该类别。
4.如权利要求3所述的知识库自动构建装置,其特征在于,所述语料分类模块中还包括:
相似度运算单元,当查找单元未查找到与各类别中预设的关键词相同的分词,相似度运算单元分别计算各分词与各类别中预设的关键词之间的相似度;
判断单元,用于根据相似度运算单元的计算结果,判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词;若存在,所述归类单元将该文本句归类至该类别。
5.如权利要求4所述的知识库自动构建装置,其特征在于,所述语料分类模块中还包括类别获取单元,
当判断单元判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,则类别获取单元获取上一文本句所属类别,归类单元将该文本句归类之上一文本句所属类别。
6.如权利要求1或2或4或5所述的知识库自动构建装置,其特征在于,所述知识库自动构建装置中还包括:
语料处理模块,用于对语料分类模块分类得到的各子语料进行自然语言处理得到标准子语料;
所述语料存储模块将语料处理模块处理得到的标准子语料存储入知识库中相应的存储区域。
7.一种聊天机器人知识库自动构建方法,其特征在于,所述知识库自动构建方法中包括:
S1获取原始语料,所述原始语料中包括多个文本句;
S2根据预设规则对所述原始语料进行分类,得到各类别对应的子语料;
S3将各类别对应的子语料存储入知识库中相应的类别区域。
8.如权利要求7所述的知识库自动构建方法,其特征在于,在步骤S2中具体包括:
S21将需要进行分类的文本句进行拆分得到若干分词;
S22根据各类别中预设的关键词在拆分得到的分词中查找,若查找到与某一类别中预设的关键词相同的分词,跳转至步骤S23;
S23该文本句归类至该类别。
9.如权利要求8所述的知识库自动构建方法,其特征在于,在步骤S22中,若未查找到与各类别中预设的关键词相同的分词,跳转至步骤S24;
S24分别计算各分词与各类别中预设的关键词之间的相似度;
S25判断是否存在与某一类别中预设的关键词之间相似度大于预设相似度的分词,若存在,跳转至步骤S23。
10.如权利要求9所述的知识库自动构建方法,其特征在于,在步骤S25中,若判断该文本句中不存在与各类别中预设的关键词之间相似度大于预设相似度的分词,跳转至步骤S26;
S26获取上一文本句所属类别,并跳转至步骤S23。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710292116.0A CN107133305A (zh) | 2017-04-28 | 2017-04-28 | 一种聊天机器人知识库自动构建装置及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710292116.0A CN107133305A (zh) | 2017-04-28 | 2017-04-28 | 一种聊天机器人知识库自动构建装置及其方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107133305A true CN107133305A (zh) | 2017-09-05 |
Family
ID=59715622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710292116.0A Pending CN107133305A (zh) | 2017-04-28 | 2017-04-28 | 一种聊天机器人知识库自动构建装置及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107133305A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197167A (zh) * | 2017-12-18 | 2018-06-22 | 深圳前海微众银行股份有限公司 | 人机对话处理方法、设备及可读存储介质 |
CN108491394A (zh) * | 2018-06-27 | 2018-09-04 | 杭州贝店科技有限公司 | 一种语义分析方法、装置、计算机设备及存储介质 |
CN108509482A (zh) * | 2018-01-23 | 2018-09-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108829777A (zh) * | 2018-05-30 | 2018-11-16 | 出门问问信息科技有限公司 | 一种聊天机器人的问题答复方法及装置 |
CN109033221A (zh) * | 2018-06-29 | 2018-12-18 | 上海银赛计算机科技有限公司 | 答案生成方法、装置及服务器 |
CN109753558A (zh) * | 2018-12-26 | 2019-05-14 | 出门问问信息科技有限公司 | 基于用户手册构建问答系统的方法、装置及系统 |
CN109947907A (zh) * | 2017-10-31 | 2019-06-28 | 上海挖数互联网科技有限公司 | 聊天机器人的构造、响应方法及装置、存储介质、服务器 |
CN110019781A (zh) * | 2017-09-15 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 差评信息分类方法及装置、存储介质、电子设备 |
CN110232914A (zh) * | 2019-05-20 | 2019-09-13 | 平安普惠企业管理有限公司 | 一种语义识别方法、装置以及相关设备 |
CN110727769A (zh) * | 2018-06-29 | 2020-01-24 | 优视科技(中国)有限公司 | 语料库生成方法及装置、人机交互处理方法及装置 |
CN110866107A (zh) * | 2019-10-12 | 2020-03-06 | 浙江大搜车软件技术有限公司 | 素材语料的生成方法、装置、计算机设备和存储介质 |
CN112818127A (zh) * | 2019-11-15 | 2021-05-18 | 北京中关村科金技术有限公司 | 一种检测知识库中的语料冲突的方法、装置和介质 |
CN113569019A (zh) * | 2021-05-24 | 2021-10-29 | 恩亿科(北京)数据科技有限公司 | 基于聊天对话进行知识提取的方法、系统、设备及存储介质 |
CN114187997A (zh) * | 2021-11-16 | 2022-03-15 | 同济大学 | 一种面向抑郁人群的心理咨询聊天机器人实现方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202476A (zh) * | 2016-07-14 | 2016-12-07 | 广州安望信息科技有限公司 | 一种基于知识图谱的人机对话的方法及装置 |
-
2017
- 2017-04-28 CN CN201710292116.0A patent/CN107133305A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202476A (zh) * | 2016-07-14 | 2016-12-07 | 广州安望信息科技有限公司 | 一种基于知识图谱的人机对话的方法及装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019781A (zh) * | 2017-09-15 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 差评信息分类方法及装置、存储介质、电子设备 |
CN109947907A (zh) * | 2017-10-31 | 2019-06-28 | 上海挖数互联网科技有限公司 | 聊天机器人的构造、响应方法及装置、存储介质、服务器 |
CN108197167A (zh) * | 2017-12-18 | 2018-06-22 | 深圳前海微众银行股份有限公司 | 人机对话处理方法、设备及可读存储介质 |
CN108509482B (zh) * | 2018-01-23 | 2020-12-08 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108509482A (zh) * | 2018-01-23 | 2018-09-07 | 深圳市阿西莫夫科技有限公司 | 问题分类方法、装置、计算机设备和存储介质 |
CN108829777A (zh) * | 2018-05-30 | 2018-11-16 | 出门问问信息科技有限公司 | 一种聊天机器人的问题答复方法及装置 |
CN108491394A (zh) * | 2018-06-27 | 2018-09-04 | 杭州贝店科技有限公司 | 一种语义分析方法、装置、计算机设备及存储介质 |
CN109033221A (zh) * | 2018-06-29 | 2018-12-18 | 上海银赛计算机科技有限公司 | 答案生成方法、装置及服务器 |
CN110727769A (zh) * | 2018-06-29 | 2020-01-24 | 优视科技(中国)有限公司 | 语料库生成方法及装置、人机交互处理方法及装置 |
CN110727769B (zh) * | 2018-06-29 | 2024-04-19 | 阿里巴巴(中国)有限公司 | 语料库生成方法及装置、人机交互处理方法及装置 |
CN109753558A (zh) * | 2018-12-26 | 2019-05-14 | 出门问问信息科技有限公司 | 基于用户手册构建问答系统的方法、装置及系统 |
CN110232914A (zh) * | 2019-05-20 | 2019-09-13 | 平安普惠企业管理有限公司 | 一种语义识别方法、装置以及相关设备 |
CN110866107A (zh) * | 2019-10-12 | 2020-03-06 | 浙江大搜车软件技术有限公司 | 素材语料的生成方法、装置、计算机设备和存储介质 |
CN112818127A (zh) * | 2019-11-15 | 2021-05-18 | 北京中关村科金技术有限公司 | 一种检测知识库中的语料冲突的方法、装置和介质 |
CN113569019A (zh) * | 2021-05-24 | 2021-10-29 | 恩亿科(北京)数据科技有限公司 | 基于聊天对话进行知识提取的方法、系统、设备及存储介质 |
CN113569019B (zh) * | 2021-05-24 | 2024-04-30 | 恩亿科(北京)数据科技有限公司 | 基于聊天对话进行知识提取的方法、系统、设备及存储介质 |
CN114187997A (zh) * | 2021-11-16 | 2022-03-15 | 同济大学 | 一种面向抑郁人群的心理咨询聊天机器人实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107133305A (zh) | 一种聊天机器人知识库自动构建装置及其方法 | |
CN111950932B (zh) | 基于多源信息融合的中小微企业综合质量画像方法 | |
Sidorov et al. | Empirical study of machine learning based approach for opinion mining in tweets | |
Setiaji et al. | Chatbot using a knowledge in database: human-to-machine conversation modeling | |
Thakor et al. | Ontology-based sentiment analysis process for social media content | |
CN110597988A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
Antiqueira et al. | Strong correlations between text quality and complex networks features | |
Vilares et al. | On the usefulness of lexical and syntactic processing in polarity classification of T witter messages | |
KR20200007969A (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
EP2553605A1 (en) | Text classifier system | |
CN103870507B (zh) | 一种基于类目的搜索方法和装置 | |
CN104899298A (zh) | 一种基于大规模语料特征学习的微博情感分析方法 | |
CN106844530A (zh) | 一种问答对分类模型的训练方法和装置 | |
CN107291840B (zh) | 一种用户属性预测模型构建方法和装置 | |
CN103399891A (zh) | 网络内容自动推荐方法、装置和系统 | |
Levi et al. | Identifying nuances in fake news vs. satire: using semantic and linguistic cues | |
CN111797202B (zh) | 一种基于人工智能的客服对话方法 | |
CN108009297B (zh) | 基于自然语言处理的文本情感分析方法与系统 | |
CN106294355A (zh) | 一种业务对象属性的确定方法及设备 | |
CN104778184A (zh) | 一种确定反馈关键词的方法和装置 | |
CN109558587A (zh) | 一种针对类别分布不平衡的舆论倾向性识别的分类方法 | |
Selvaperumal et al. | A short message classification algorithm for tweet classification | |
CN102779119B (zh) | 一种抽取关键词的方法及装置 | |
CN105183808A (zh) | 一种问题分类方法及装置 | |
US8930377B2 (en) | System and methods thereof for mining web based user generated content for creation of term taxonomies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170905 |
|
WD01 | Invention patent application deemed withdrawn after publication |