CN112818107B - 一种用于日常生活的对话机器人及其聊天方法 - Google Patents
一种用于日常生活的对话机器人及其聊天方法 Download PDFInfo
- Publication number
- CN112818107B CN112818107B CN202110203693.4A CN202110203693A CN112818107B CN 112818107 B CN112818107 B CN 112818107B CN 202110203693 A CN202110203693 A CN 202110203693A CN 112818107 B CN112818107 B CN 112818107B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- information
- reply
- template
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000012216 screening Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 7
- 230000008451 emotion Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000007935 neutral effect Effects 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000002354 daily effect Effects 0.000 claims 4
- 230000003203 everyday effect Effects 0.000 claims 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种用于日常生活的对话机器人及其聊天方法,其特征在于,包括:预处理模块,用于将对话方输入的语音形式的信息进行语音识别得到文本形式的信息;自然语言理解模块,用于对文本形式的信息进行语义理解,得到语义理解后的文本信息;回复模块,用于根据语义理解后的文本信息、预先构建的对话模板、训练好的对话生成模型以及预先设定的回复时间,生成回复信息或用于提醒用户需本人进行回复的提示信息,并发送至对话方,本发明可以广泛应用于对话机器人领域中。
Description
技术领域
本发明是关于一种用于日常生活的对话机器人及其聊天方法,属于对话机器人领域。
背景技术
近年来,人工智能方法在医疗、交通、环境和电商等各个领域飞速发展,对话机器人作为一种模拟人类对话的程序也是人工智能一个重要分支。对话机器人从功能上看可以分为任务型对话机器人和闲聊型对话机器人,任务型对话机器人应用于特定的领域,有明确的服务目标或服务对象,例如订餐订票机器人、知识问答机器人、儿童教育机器人和客服机器人等,闲聊型对话机器人不仅能回答用户某一问题,还能人性化地与用户进行交流,例如出于娱乐聊天目的设计的机器人和个人助理机器人等。
目前,基于特定领域的任务型对话机器人应用广泛、发展迅猛,这些对话机器人能够自动地对客户提出的一些常见的简单问题做出快速应答,减少企业运营的人力成本,提高用户的体验。然而,闲聊型对话机器人却没有人们想象的那么智能,人们期待这些机器人能够像人类一样对答如流,但是面对以自然语言形式提出的问题,它们在表达和理解层面上均有所欠缺,在多轮交互时上下文语义理解能力差,导致用户体验的流畅度低。
现阶段闲聊型对话机器人仍然能帮助解决生活中一些小的应用场景问题。例如在客服应用上,现有技术中已经采用闲聊型对话机器人解决一些简单、机械的问题以减少企业的人力成本,那么在日常生活中,也可以考虑引入闲聊型对话机器人来代理一些简单的对话,以节省用户的时间。然而,现有技术中并没有用于日常生活的闲聊型对话机器人。
发明内容
针对上述问题,本发明的目的是提供一种用于日常生活的能够节省用户时间的用于日常生活的对话机器人及其聊天方法。
为实现上述目的,本发明采取以下技术方案:一种用于日常生活的对话机器人,包括:
预处理模块,用于将对话方输入的语音形式的信息进行语音识别得到文本形式的信息;
自然语言理解模块,用于对文本形式的信息进行语义理解,得到语义理解后的文本信息;
回复模块,用于根据语义理解后的文本信息、预先构建的对话模板、训练好的对话生成模型以及预先设定的回复时间,生成回复信息或用于提醒用户需本人进行回复的提示信息,并发送至对话方。
进一步地,所述语义理解包括分词、句法分析、命名实体识别和提取关键词。
进一步地,所述回复模块内设置有:
参数设定单元,用于预先设定回复信息的回复时间;
对话模板构建单元,用于构建需用户本人回复和不需用户本人回复的对话模板,并设置需用户本人回复的对话数据的关键词;
生成模型训练单元,用于采用对话语料库以及用户自身常用的对话数据,训练对话生成模型;
类型分析单元,用于根据预先构建的对话模板,对语义理解后的文本信息进行类型分析;
模板匹配单元,用于采用正则化或计算相似度等方法,根据预先构建的对话模板,对语义理解后的文本信息进行模板匹配;
预测单元,用于将语义理解后的文本信息输入至训练好的对话生成模型进行预测;
回复信息生成单元,用于根据类型分析结果、模板匹配结果或预测结果,生成回复信息,并根据预先设定的回复时间发送至对话方。
进一步地,所述语义理解后的文本信息的类型包括需用户本人回复类的文本信息和自动回复类的文本信息。
进一步地,所述对话模板根据日常聊天对话过程中的对话数据、模板库汇总的模板以及用户根据自身常用的对话数据构建。
一种用于日常生活的对话机器人的聊天方法,包括以下内容:
1)对话方向用户发送文本形式的信息或语音形式的信息,其中,当对话方发送的为语音形式的信息时,预处理模块对语音形式的信息进行语音识别得到文本形式的信息;
2)自然语言理解模块对文本形式的信息进行语义理解,得到语义理解后的文本信息;
3)回复模块根据预先构建的对话模板,对语义理解后的文本信息进行类型分析,若为需用户本人回复类的文本信息,则进入步骤4);若为自动回复类的文本信息,则进入步骤5);
4)回复模块弹出提示信息;
5)回复模块采用正则化或计算相似度等方法,根据预先构建的对话模板,对语义理解后的文本信息进行模板匹配,当匹配率超过预先设定的匹配率时,则根据对话模板的内容生成回复信息,并根据预先设定的回复时间发送至对话方;否则,进入步骤6);
6)回复模块将语义理解后的文本信息输入至训练好的对话生成模型进行预测,生成回复信息,并根据预先设定的回复时间发送至对话方。
进一步地,所述步骤3)中对话模板的构建过程为:
3.1)获取聊天对话过程中的对话数据;
3.2)根据获取的对话数据,构建常用的若干组对话模板,并以对话对的形式存储;
3.3)采用模板库汇总的模板或用户根据自身常用的对话数据,对构建的对话模板进行补充;
3.4)设置需用户本人回复的对话数据的关键词和对话模板。
进一步地,所述步骤6)中对话生成模型的训练过程为:
6.1)采用网络爬虫方式,爬取网络上的对话语料库;
6.2)对爬取的对话语料库进行清洗和筛选,得到初始数据集;
6.3)采用情绪分析工具,筛选出初始数据集中字数不超过预设字数的中立情绪的语句,得到用于训练生成模型的语料库;
6.4)采用jieba分词器,对语料库中的语句进行分词,构建词典;
6.5)采用python的gensim库,根据构建的词典,将语料库拆分为问数据集和答数据集;
6.6)训练问数据集和答数据集的词向量;
6.7)确定对话生成模型中的编码器模块、解码器模块和损失函数;
6.8)根据训练好的词向量,对对话生成模型进行训练,并更改模型参数,得到训练好的模型。
进一步地,所述步骤6.7)中的编码器模块用于将输入序列压缩为指定长度的向量,其中的网络结构为两层双向GRU模型;
解码器模块用于根据语义向量生成指定的序列,其中的网络结构为双层单向GRU模型;
损失函数采用梯度优化算法和最大似然条件概率的损失函数。
进一步地,所述步骤6.8)中对对话生成模型进行训练为将问数据集的词向量表示作为编码器模块的输入,将答数据集的词向量表示作为解码器模块的当前输出。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明采用人工构建对话模板,基于网络爬虫方式爬取网络上的对话语料库,经过筛选生成本发明的对话机器人回复所需的语料库,根据语料库训练对话生成模型,当对话机器人托管对话后,对对话方的语句进行语义理解后进行类型分析和模式匹配,通过模板或对话生成模型生成回复,并随机设置回复时间,可以有效节省用户的时间。
2、当检测到需用户本人回复的对话内容时,本发明的对话机器人能够停止自动回复,并弹出提示信息提醒用户需本人进行回复,可以广泛应用于对话机器人领域中。
附图说明
图1是本发明一实施例提供的对话机器人的结构示意图。
具体实施方式
以下结合附图来对本发明进行详细的描绘。然而应当理解,附图的提供仅为了更好地理解本发明,它们不应该理解成对本发明的限制。
智能聊天领域效果最好的就是基于规则的闲聊型对话机器人,这种机器人按照事先制定好的模板进行回复,虽然回复更加准确,但是依赖丰富的语料库,如果想达到灵活的对话,就需要提前设定好大量的模板。但是,本发明不需要复杂灵活的回复,因此只需要根据不同的对话类型定义一些简单的模板即可。交互式对话的模板以<Q,A>对话对的方式存储,每组对话对由两条语句构成,参考AIML(人工智能标记)语言,语句可以是完整的句子也可以包括正则表达式。同时,也可以设置一些对语句中的关键词进行反应的模板,以扩大模板的覆盖范围。
实施例1
如图1所示,本实施例提供一种用于日常生活的对话机器人,包括预处理模块1、自然语言理解模块2和回复模块3。
预处理模块1用于将对话方输入的语音形式的信息进行语音识别得到文本形式的信息。
自然语言理解模块2用于对文本形式的信息进行语义理解,得到语义理解后的文本信息,其中,语义理解包括分词、句法分析、命名实体识别和提取关键词等。
回复模块3用于根据语义理解后的文本信息、预先构建的对话模板、训练好的对话生成模型以及预先设定的回复时间,生成回复信息或用于提醒用户需本人进行回复的提示信息,并发送至对话方。
在一个优选的实施例中,回复模块3内设置有参数设定单元、对话模板构建单元、生成模型训练单元、类型分析单元、模板匹配单元、预测单元和回复信息生成单元。
参数设定单元用于预先设定回复信息的回复时间。
对话模板构建单元用于根据日常聊天对话过程中的对话数据、模板库汇总的模板以及用户根据自身常用的对话数据,构建需用户本人回复和不需用户本人回复的对话模板,并设置需用户本人回复的对话数据的关键词。
生成模型训练单元用于采用网络上的对话语料库以及用户自身常用的对话数据,训练对话生成模型。
类型分析单元用于根据预先构建的对话模板,对语义理解后的文本信息进行类型分析,包括需用户本人回复类的文本信息和自动回复类的文本信息。
模板匹配单元用于采用正则化或计算相似度等方法,根据预先构建的对话模板,对语义理解后的文本信息进行模板匹配。
预测单元用于将语义理解后的文本信息输入至训练好的对话生成模型进行预测。
回复信息生成单元用于根据类型分析结果、模板匹配结果或预测结果,生成回复信息,并根据预先设定的回复时间发送至对话方。
实施例2
本实施例提供一种用于日常生活的对话机器人的聊天方法,包括以下步骤:
1)对话方向用户发送文本形式的信息或语音形式的信息,其中,当对话方发送的为语音形式的信息时,预处理模块1对语音形式的信息进行语音识别得到文本形式的信息。
2)自然语言理解模块2对文本形式的信息进行语义理解,得到语义理解后的文本信息,其中,语义理解包括分词、句法分析、命名实体识别和提取关键词等。
例如:“我认为聊天机器人应用广泛”这句话,自然语言理解模块2对该语句进行分词,即将连续的字序列按照一定的规范重新组合成词序列的过程,分词结果为“我/认为/聊天/机器人/应用/广泛”;自然语言理解模块2对该语句进行句法分析,即对语句中的词语语法功能进行分析,句法分析结果为“我”为主语,“认为”为谓语,“聊天机器人应用广泛”为宾语;自然语言理解模块2对该语句进行命名实体识别即识别语句中具有特定意义的实体,包括人名、地名、机构名和专有名词等;自然语言理解模块2对该语句进行提取关键词即提取语句中信息含量大的词,这句话中就可以为“聊天机器人”,信息含量的大小根据实际情况进行设定。
3)回复模块3根据预先构建的对话模板,对语义理解后的文本信息进行类型分析,若为需用户本人回复类的文本信息,则进入步骤4);若为自动回复类的文本信息,则进入步骤5)。
例如:对于自动回复类的文本数据,根据回复习惯,对于“我今天……”等叙述性的语句,回复“嗯嗯”、“哦哦”、“是的”等语句,或回复微笑等表情包;对于“认为……”或带有“想法”等关键词的语句,回复“想法不错”、“还行”等语句;还可以在回复中抓取对话方叙述的关键词,例如对话方描述一个新事物的进展,抓取该“新事物”的关键词,可以回复“这个新事物不错”或“我不知道”等语句,基于此,即可创建敷衍对话模板;同时,也可参考一些开源模板,丰富敷衍对话模板的内容。对于对话方询问的不能由自动回复代理的需用户本人回复类的文本数据,为该语句形式创建单独的对话模板,例如“……怎么样?”、“确定一下……?”等语句,设定弹出提示以提醒用户需要本人进行回复。
4)回复模块3弹出提示信息,以提醒用户需本人进行回复。
5)回复模块3采用正则化或计算相似度等方法,根据预先构建的对话模板,对语义理解后的文本信息进行模板匹配,当匹配率超过预先设定的匹配率时,则根据对话模板的内容生成回复信息,并根据预先设定的回复时间发送至对话方;否则,进入步骤6)。
6)回复模块3将语义理解后的文本信息输入至训练好的对话生成模型进行预测,生成回复信息,并根据预先设定的回复时间发送至对话方。
上述步骤3)中,对话模板的构建过程为:
①获取日常聊天对话过程中的对话数据。
②根据获取的对话数据,构建常用的若干组对话模板,并以对话对(即一个问题和一个回答)的形式存储。
③采用模板库汇总的模板或用户根据自身常用的对话数据,对构建的对话模板进行补充。
④设置需用户本人回复的对话数据的关键词和对话模板。
上述步骤6)中,的训练过程为:
①采用网络爬虫方式,爬取网络上的对话语料库。
②对爬取的对话语料库进行清洗和筛选,剔除乱码等语句,得到初始数据集。
③采用情绪分析工具,筛选出初始数据集中字数不超过预设字数的中立情绪的语句,得到用于训练生成模型的语料库,例如筛选出初始数据集中回复字数不超过10个字的语句,其中,可将用户自身常用的对话数据添加至语料库内,以实现对话机器人的个性化。
④采用jieba分词器,对语料库中的语句进行分词,构建词典,其中,jieba分词器为现有技术中公开的分词方式,具体分词过程在此不多做赘述。
⑤将语料库拆分为问数据集和答数据集。
⑥采用python(一种计算机编程语言)的gensim库,根据构建的词典,训练问数据集和答数据集的词向量,将词表示为固定维度的稠密向量,其中,训练词向量为现有技术中公开的方法,具体过程在此不多做赘述。
⑦采用tensorflow(一种端到端开源机器学习平台)框架,确定对话生成模型即seq2seq模型中的encoder(编码器)模块、decoder(解码器)模块和损失函数,其中,encoder模块用于将输入序列压缩为指定长度的向量,其中的网络结构为两层双向GRU(门控循环单元)模型;decoder模块用于根据语义向量生成指定的序列,其中的网络结构为双层单向GRU模型;采用梯度优化算法和最大似然条件概率为损失函数进行模型的训练和优化。
⑧根据训练好的词向量,对seq2seq模型进行训练,并更改模型参数,例如模型的batch_size(批大小)、损失函数等,以得到一个损失函数计算损失小的结果,得到训练好的模型,该模型在输入文本信息后自动生成回复信息,其中,对seq2seq模型进行训练为将问数据集的词向量表示作为encoder模块的输入,将答数据集的词向量表示作为decoder模块的预测即当前输出。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (8)
1.一种用于日常生活的对话机器人,其特征在于,包括:
预处理模块,用于将对话方输入的语音形式的信息进行语音识别得到文本形式的信息;
自然语言理解模块,用于对文本形式的信息进行语义理解,得到语义理解后的文本信息,所述语义理解后的文本信息的类型包括需用户本人回复类的文本信息和自动回复类的文本信息;
回复模块,用于根据语义理解后的文本信息、预先构建的对话模板、训练好的对话生成模型以及预先设定的回复时间,生成回复信息或用于提醒用户需本人进行回复的提示信息,并发送至对话方;
所述回复模块内设置有:
参数设定单元,用于预先设定回复信息的回复时间;
对话模板构建单元,用于构建需用户本人回复和不需用户本人回复的对话模板,并设置需用户本人回复的对话数据的关键词;
生成模型训练单元,用于采用对话语料库以及用户自身常用的对话数据,训练对话生成模型;
类型分析单元,用于根据预先构建的对话模板,对语义理解后的文本信息进行类型分析;
模板匹配单元,用于采用正则化或计算相似度方法,根据预先构建的对话模板,对语义理解后的文本信息进行模板匹配;
预测单元,用于将语义理解后的文本信息输入至训练好的对话生成模型进行预测;
回复信息生成单元,用于根据类型分析结果、模板匹配结果或预测结果,生成回复信息,并根据预先设定的回复时间发送至对话方。
2.如权利要求1所述的一种用于日常生活的对话机器人,其特征在于,所述语义理解包括分词、句法分析、命名实体识别和提取关键词。
3.如权利要求1所述的一种用于日常生活的对话机器人,其特征在于,所述对话模板根据日常聊天对话过程中的对话数据、模板库汇总的模板以及用户根据自身常用的对话数据构建。
4.一种基于权利要求1至3任一项所述的用于日常生活的对话机器人的聊天方法,其特征在于,包括以下内容:
1)对话方向用户发送文本形式的信息或语音形式的信息,其中,当对话方发送的为语音形式的信息时,预处理模块对语音形式的信息进行语音识别得到文本形式的信息;
2)自然语言理解模块对文本形式的信息进行语义理解,得到语义理解后的文本信息;
3)回复模块根据预先构建的对话模板,对语义理解后的文本信息进行类型分析,若为需用户本人回复类的文本信息,则进入步骤4);若为自动回复类的文本信息,则进入步骤5);
4)回复模块弹出提示信息;
5)回复模块采用正则化或计算相似度等方法,根据预先构建的对话模板,对语义理解后的文本信息进行模板匹配,当匹配率超过预先设定的匹配率时,则根据对话模板的内容生成回复信息,并根据预先设定的回复时间发送至对话方;否则,进入步骤6);
6)回复模块将语义理解后的文本信息输入至训练好的对话生成模型进行预测,生成回复信息,并根据预先设定的回复时间发送至对话方。
5.如权利要求4所述的一种用于日常生活的对话机器人的聊天方法,其特征在于,所述步骤3)中对话模板的构建过程为:
3.1)获取聊天对话过程中的对话数据;
3.2)根据获取的对话数据,构建常用的若干组对话模板,并以对话对的形式存储;
3.3)采用模板库汇总的模板或用户根据自身常用的对话数据,对构建的对话模板进行补充;
3.4)设置需用户本人回复的对话数据的关键词和对话模板。
6.如权利要求4所述的一种用于日常生活的对话机器人的聊天方法,其特征在于,所述步骤6)中对话生成模型的训练过程为:
6.1)采用网络爬虫方式,爬取网络上的对话语料库;
6.2)对爬取的对话语料库进行清洗和筛选,得到初始数据集;
6.3)采用情绪分析工具,筛选出初始数据集中字数不超过预设字数的中立情绪的语句,得到用于训练生成模型的语料库;
6.4)采用jieba分词器,对语料库中的语句进行分词,构建词典;
6.5)采用python的gensim库,根据构建的词典,将语料库拆分为问数据集和答数据集;
6.6)训练问数据集和答数据集的词向量;
6.7)确定对话生成模型中的编码器模块、解码器模块和损失函数;
6.8)根据训练好的词向量,对对话生成模型进行训练,并更改模型参数,得到训练好的模型。
7.如权利要求6所述的一种用于日常生活的对话机器人的聊天方法,其特征在于,所述步骤6.7)中的编码器模块用于将输入序列压缩为指定长度的向量,其中的网络结构为两层双向GRU模型;
解码器模块用于根据语义向量生成指定的序列,其中的网络结构为双层单向GRU模型;
损失函数采用梯度优化算法和最大似然条件概率的损失函数。
8.如权利要求6所述的一种用于日常生活的对话机器人的聊天方法,其特征在于,所述步骤6.8)中对对话生成模型进行训练为将问数据集的词向量表示作为编码器模块的输入,将答数据集的词向量表示作为解码器模块的当前输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203693.4A CN112818107B (zh) | 2021-02-24 | 2021-02-24 | 一种用于日常生活的对话机器人及其聊天方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110203693.4A CN112818107B (zh) | 2021-02-24 | 2021-02-24 | 一种用于日常生活的对话机器人及其聊天方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112818107A CN112818107A (zh) | 2021-05-18 |
CN112818107B true CN112818107B (zh) | 2023-10-31 |
Family
ID=75865205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110203693.4A Active CN112818107B (zh) | 2021-02-24 | 2021-02-24 | 一种用于日常生活的对话机器人及其聊天方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818107B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297362A (zh) * | 2021-05-27 | 2021-08-24 | 平安科技(深圳)有限公司 | 机器人问答方法、装置、计算机设备及存储介质 |
CN113409631A (zh) * | 2021-06-18 | 2021-09-17 | 上海锡鼎智能科技有限公司 | Ai辅助教学机器人 |
CN113504836B (zh) * | 2021-09-06 | 2022-01-25 | 北京翰凌科技有限公司 | 一种信息输入方法和电子设备 |
CN114328867A (zh) * | 2021-12-24 | 2022-04-12 | 零犀(北京)科技有限公司 | 一种人机对话中智能打断的方法及装置 |
CN114417892B (zh) * | 2022-01-27 | 2022-08-02 | 北京中科深智科技有限公司 | 一种用于电商直播场景的小样本多轮对话的生成模型 |
CN114678029B (zh) * | 2022-05-27 | 2022-09-02 | 深圳市人马互动科技有限公司 | 语音处理方法、系统、计算机可读存储介质及程序产品 |
CN114691852B (zh) * | 2022-06-01 | 2022-08-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机对话系统及方法 |
CN115617972B (zh) * | 2022-12-14 | 2023-04-07 | 成都明途科技有限公司 | 一种机器人对话方法、装置、电子设备及存储介质 |
CN115878775B (zh) * | 2022-12-23 | 2024-04-12 | 北京百度网讯科技有限公司 | 生成跨类型对话数据的方法和装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN105808695A (zh) * | 2016-03-03 | 2016-07-27 | 陈包容 | 一种获取聊天回复内容的方法及装置 |
CN107924372A (zh) * | 2015-10-20 | 2018-04-17 | 索尼公司 | 信息处理系统和信息处理方法 |
CN110209791A (zh) * | 2019-06-12 | 2019-09-06 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
CN110209792A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | 对话彩蛋生成方法及系统 |
CN110692048A (zh) * | 2017-03-20 | 2020-01-14 | 电子湾有限公司 | 会话中任务改变的检测 |
CN112115247A (zh) * | 2020-09-07 | 2020-12-22 | 中国人民大学 | 一种基于长短时记忆信息的个性化对话生成方法和系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180025726A1 (en) * | 2016-07-22 | 2018-01-25 | International Business Machines Corporation | Creating coordinated multi-chatbots using natural dialogues by means of knowledge base |
WO2021030288A1 (en) * | 2019-08-09 | 2021-02-18 | Ruon Limited | User media platform server system |
-
2021
- 2021-02-24 CN CN202110203693.4A patent/CN112818107B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105138710A (zh) * | 2015-10-12 | 2015-12-09 | 金耀星 | 一种聊天代理系统及方法 |
CN107924372A (zh) * | 2015-10-20 | 2018-04-17 | 索尼公司 | 信息处理系统和信息处理方法 |
CN105808695A (zh) * | 2016-03-03 | 2016-07-27 | 陈包容 | 一种获取聊天回复内容的方法及装置 |
CN110692048A (zh) * | 2017-03-20 | 2020-01-14 | 电子湾有限公司 | 会话中任务改变的检测 |
CN110209791A (zh) * | 2019-06-12 | 2019-09-06 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
CN110209792A (zh) * | 2019-06-13 | 2019-09-06 | 苏州思必驰信息科技有限公司 | 对话彩蛋生成方法及系统 |
CN112115247A (zh) * | 2020-09-07 | 2020-12-22 | 中国人民大学 | 一种基于长短时记忆信息的个性化对话生成方法和系统 |
Non-Patent Citations (2)
Title |
---|
Chatbots: History, technology, and applications;Eleni Adamopoulou 等;《Machine Learning with Applications》;1-2 * |
面向聊天机器人的多轮对话回复生成技术研究;李凌志;《信息科技》;1-62 * |
Also Published As
Publication number | Publication date |
---|---|
CN112818107A (zh) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112818107B (zh) | 一种用于日常生活的对话机器人及其聊天方法 | |
Serban et al. | A deep reinforcement learning chatbot | |
Ahmad et al. | Review of chatbots design techniques | |
US11128579B2 (en) | Systems and processes for operating and training a text-based chatbot | |
JP6951712B2 (ja) | 対話装置、対話システム、対話方法、およびプログラム | |
CN109460459B (zh) | 一种基于日志学习的对话系统自动优化方法 | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
Hung et al. | Towards a method for evaluating naturalness in conversational dialog systems | |
US20230394247A1 (en) | Human-machine collaborative conversation interaction system and method | |
CN113901191A (zh) | 问答模型的训练方法及装置 | |
Marin Vargas et al. | Verbal communication in robotics: a study on salient terms, research fields and trends in the last decades based on a computational linguistic analysis | |
Chowanda et al. | Recurrent neural network to deep learn conversation in indonesian | |
CN112364148A (zh) | 一种基于深度学习方法的生成型聊天机器人 | |
Prakash et al. | Chatterbot implementation using transfer learning and LSTM encoder-decoder architecture | |
CN111949762B (zh) | 基于上下文情感对话的方法和系统、存储介质 | |
Jiang et al. | Towards improving the performance of chat oriented dialogue system | |
Adewale et al. | Pixie: a social chatbot | |
Mohammed et al. | Chatbot system architecture | |
Pardeshi et al. | A survey on Different Algorithms used in Chatbot | |
Chowanda et al. | Generative Indonesian conversation model using recurrent neural network with attention mechanism | |
Ashfaque et al. | Design and Implementation: Deep Learning-based Intelligent Chatbot | |
CN114661864A (zh) | 一种基于受控文本生成的心理咨询方法、装置及终端设备 | |
Pillare et al. | A SURVEY PAPER ON CHATBOT | |
YIN | A compression-based BiLSTM for treating teenagers’ depression chatbot | |
CN116991982B (zh) | 基于人工智能的交互式对话方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |