CN111046143A - 一种ChatBot系统中用户日语会话意图识别方法 - Google Patents

一种ChatBot系统中用户日语会话意图识别方法 Download PDF

Info

Publication number
CN111046143A
CN111046143A CN201911300518.6A CN201911300518A CN111046143A CN 111046143 A CN111046143 A CN 111046143A CN 201911300518 A CN201911300518 A CN 201911300518A CN 111046143 A CN111046143 A CN 111046143A
Authority
CN
China
Prior art keywords
user
word
emotion
faq
chatbot system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911300518.6A
Other languages
English (en)
Inventor
张晓风
杨晨
翟云
曹晓耀
杜丹刚
蔡达
朱晓虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Fujitsu Nanda Software Technology Co Ltd
Original Assignee
Nanjing Fujitsu Nanda Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Fujitsu Nanda Software Technology Co Ltd filed Critical Nanjing Fujitsu Nanda Software Technology Co Ltd
Priority to CN201911300518.6A priority Critical patent/CN111046143A/zh
Publication of CN111046143A publication Critical patent/CN111046143A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种ChatBot系统中用户日语会话意图识别方法,利用情感字典根据词性计算用户当前的情绪值,并根据不同的情绪作不同的处理,同时通过与FAQ文件进行相似度匹配,可直接返回FAQ中相近内容的回答,同时通过槽位记住用户之前的输入内容并识别用户的会话意图。当用户输入带有极度消极单词(不开心、伤心,很难过等)的情况下,自动切换到人工客服;用户输入某一机能模块的关键字时,会为用户提供进入该模块以及相近模块的快速入口;当用户输入与业务相关的语句时,会向用户显示在FAQ文件中相近问题的回答;当用户进入某一业务话题后,不用用户重复输入,即可根据用户之前的输入内容直接回复。

Description

一种ChatBot系统中用户日语会话意图识别方法
技术领域
本发明属于软件工程应用技术领域,具体涉及一种ChatBot系统中用户日语会话意图识别方法。
背景技术
随着信息技术的飞速发展,计算机软件的应用越来越广泛,同时随着用户需求的多样化,大量业务系统也随之生成,这些系统大多体系庞大,业务复杂,涵盖成百上千模块。用户在使用这些系统时可能有很多的疑问,包括如何快速定位某一机能模块或针对某一业务产生疑问。为了帮助用户快速了解并使用系统,可在系统中添加自动回复消息的ChatBot系统。ChatBot系统主要负责回答用户关于当前业务系统的疑问以及根据用户的回答为用户提供快速进入某机能模块的入口。
目前市场上常见的ChatBot只能回答设定好的问题,或者直接让用户在规定的选项内进行选择,且不能识别用户当前的情绪,不能识别用户的意图。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于自然语言处理的ChatBot系统,利用情感字典根据词性计算用户当前的情绪值,并根据不同的情绪作不同的处理,同时通过与FAQ文件进行相似度匹配,可直接返回FAQ中相近内容的回答,同时通过槽位记住用户之前的输入内容并识别用户的会话意图。
为实现上述技术目的,本发明采取的技术方案为:
一种ChatBot系统中用户日语会话意图识别方法,包括以下步骤:
S1:接受到来自客户端用户的输入时,判断用户当前的输入是否是初次会话,若是初次会话,则直接返回主菜单,若不是初次会话,则从数据库提取当前用户的会话记录,并进入步骤S2的处理;
S2:对于非初次会话,判断用户的当前输入是针对前一次会话的选择还是全新的质问语句;若是选择,则直接返回选择的结果,若是全新质问,则进入步骤S3的处理;
S3:对本次输入的语句通过自然语言处理的切词技术进行切割,得到一个切割后的单词组;然后对单词组进行数据清洗,删除对语义理解无关的内容,最终生成一个干净的、无噪音数据的单词组;
S4:对数据清洗后的单词组中每个单词进行品词,识别每个单词的词性,并根据词性到不同的情感字典中寻找相近单词,并根据不同词性的权重进行加权平均,获得整个语句的情感得分,若是极度消极情绪,则切换到人工客服对应,否则进入步骤S5的处理;
S6:对数据清洗后的单词组使用TF-IDF算法,将单词转换为词向量,并对FAQ文件中的所有问题进行TF-IDF算法进行向量化,生成FAQ文件的词向量库;
S7:将单词组的词向量与词向量库中的每一个向量进行Cosine Similarity计算,得到当前单词组到FAQ词向量库的所有距离;
S8:计算得到的当前单词组到FAQ词向量库的所有距离与设定的阈值1进行比较,若有距离大于设定的阈值1的结果,则直接返回该相似度最高结果对应的回答,否则,计算得到的当前单词组到FAQ词向量库的所有距离与阈值2继续比较,若有大于设定阈值2的结果,则返回所有结果的回答;若均没有,否则进入步骤S9的处理;
S9:对于用户当前输入的内容根据关键字进行主题匹配,在主题内进行关键字匹配,通过槽位识别当前用户输入内容的意图,将匹配中的结果返回给用户,同时将本次会话的内容写到数据库中。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤S1中,所述初次会话的判断依据是超过一定时间未会话。
上述的步骤S3中,所述对本次输入的语句通过自然语言处理的切词技术进行切割,具体为:对本次输入的语句通过MeCab切词器进行切割。
上述的步骤S3中,所述对单词组进行数据清洗,删除对语义理解无关的内容,具体为:通过预先作成的噪音文件对单词组进行数据清洗,删除对语义理解无关的内容;所述对语义理解无关的内容包括标点符号和部分助词。
上述的步骤S4中,所述单词的词性包括形容词、连体词、副词和名词。
上述的步骤S4中,所述情感得分若为正数,则为积极情绪,若为负数,则为消极情绪。
上述的步骤S4中,所述极度消极情绪根据设定好的极度消极情绪阈值判断。
上述的步骤S4中,所述情感字典为日本东北大·冈崎研究室的《日语评价极性词典》。
本发明具有以下有益效果:
本发明通过将当前的日文输入切词,对比情感字典计算用户当前的情绪值,并根据不同的情绪值返回不同的结果,同时通过填槽技术记住用户之前输入的关键信息,用于识别用户的意图,具体包括:
1.当用户输入带有极度消极单词(不开心、伤心,很难过等)的情况下,自动切换到人工客服;
2.用户输入某一机能模块的关键字时,会为用户提供进入该模块以及相近模块的快速入口;
3.当用户输入与业务相关的语句时,会向用户显示在FAQ文件中相近问题的回答
4.当用户进入某一业务话题后,不用用户重复输入,即可根据用户之前的输入内容直接回复。
附图说明
图1是余弦相似度的原理图;
图2是本发明的相似度匹配流程图;
图3是本发明的情感分析流程图;
图4是本发明方法的整体流程图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
参照图4,本发明的一种ChatBot系统中用户日语会话意图识别方法,包括以下步骤:
S1:接受到来自客户端用户的输入时,判断用户当前的输入是否是初次会话,若是初次会话,则直接返回主菜单,若不是初次会话,则从数据库提取当前用户的会话记录,并进入步骤S2的处理;
实施例中,初次会话的判断依据是超过一定时间未会话。
S2:对于非初次会话,判断用户的当前输入是针对前一次会话的选择还是全新的质问语句;若是选择,则直接返回选择的结果,若是全新质问,则进入步骤S3的处理;
S3:对本次输入的语句通过自然语言处理的切词技术进行切割,得到一个切割后的单词组;然后对单词组进行数据清洗,删除对语义理解无关的内容,最终生成一个干净的、无噪音数据的单词组;
自然语言处理技术(NLP)包括分析语句的文法、切词、消歧、构建词向量等。
本专利实施例利用自然语言处理技术中的分词技术,将用户输入的日文语句进行切割,并根据日文语料库为每一个词构筑词向量,并利用该向量技术词句之间的距离,进行相似度的匹配以及用户意图的识别,并清洗切词结果,并进行语句的情感分析,从而获取当前用户的情绪,并在用户极度消极的状态时自动切换到人工客服。
由于英语的每个单词之间是自带空格的,但是日语和中文一样是不带空格的,所以需要将用户的日文输入手动进行切割,切词技术是将一个完整的语句切割成一个个单词以及单个的符号,切词后需要将与语义无关的单词清除,因此需要构建无关单词的语料库。如以下的日文:
「今、日?は!い。い天気ですね」
经过切词后的结果是:
「'今','、','日','?','は','!','い','。','い','天気','です','ね'」
单词清洗后的结果是:
「'今','日','は','い','い','天気','です','ね'」
本专利使用的切词器是MeCab。
实施例中,步骤S3所述对单词组进行数据清洗,删除对语义理解无关的内容,具体为:通过预先作成的噪音文件对单词组进行数据清洗,删除对语义理解无关的内容;所述对语义理解无关的内容包括标点符号和部分助词。
S4:对数据清洗后的单词组中每个单词进行品词,识别每个单词的词性(单词的词性包括形容词、连体词、副词和名词等),并根据词性到不同的情感字典中寻找相近单词,并根据不同词性的权重进行加权平均,获得整个语句的情感得分;
情感分析技术是指分析语句中包含的情绪,包括积极、一般、消极、极度消极等情绪。情感分析的对象是切词后的单词。分析单词的情感,就需要完整的情感字典,通过识别单词的词性,如名词、动词、形容词等,然后根据词性到对应的情感字典中对比计算每个单词的情感得分,通过不同词性的加权平均计算整个语句的情感得分。情感分析的流程如图3。
实施例中,所述情感得分若为正数,则为积极情绪,若为负数,则为消极情绪;
若是极度消极情绪,则切换到人工客服对应,否则进入步骤S5的处理;
所述极度消极情绪根据设定好的极度消极情绪阈值判断;
所述情感字典为日本东北大·冈崎研究室的《日语评价极性词典》。
S6:对数据清洗后的单词组使用TF-IDF算法,将单词转换为词向量,并对FAQ文件中的所有问题进行TF-IDF算法进行向量化,生成FAQ文件的词向量库;
词向量技术是指将单词转换为密集的向量,并且对于相似的单词,其对应的词向量之间的距离更近。构筑词向量的方式有很多,如通过TF-IDF、SVD等。本专利使用的是TF-IDF算法。
S7:将单词组的词向量与词向量库中的每一个向量进行Cosine Similarity计算,得到当前单词组到FAQ词向量库的所有距离;
S8:计算得到的当前单词组到FAQ词向量库的所有距离与设定的阈值1进行比较,若有距离大于设定的阈值1的结果,则直接返回该相似度最高结果对应的回答,否则,计算得到的当前单词组到FAQ词向量库的所有距离与阈值2继续比较,若有大于设定阈值2的结果,则返回所有结果的回答;若均没有,否则进入步骤S9的处理;
相似度分析算法是将切词后的所有单词根据语料库构筑词向量,并将FAQ中的所有问题根据语料库构筑FAQ的词向量库,并通过Cosine Similarity计算用户当前输入与FAQ中所有问题的距离,并将该距离作为相似度比较的准则。
Cosine Similarity的原理如图1。计算公式为:
Figure BDA0002320950390000051
其中,x1k为单词1的词向量,x2k为单词2的词向量。
相似度匹配的流程如图2。
S9:对于用户当前输入的内容根据关键字进行主题匹配,在主题内进行关键字匹配,通过槽位识别当前用户输入内容的意图,将匹配中的结果返回给用户,同时将本次会话的内容写到数据库中。
填槽(Slot Filling)指的是为了让用户意图转化为用户明确的指令而补全信息的过程。如出门打车,槽位则至少有三个:出发地点、目的地、出发时间。通过填补这三个槽位,可以明确打车所需内容。本发明通过填槽技术记住用户之前输入的关键信息,识别用户的意图。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种ChatBot系统中用户日语会话意图识别方法,其特征在于,包括以下步骤:
S1:接受到来自客户端用户的输入时,判断用户当前的输入是否是初次会话,若是初次会话,则直接返回主菜单,若不是初次会话,则从数据库提取当前用户的会话记录,并进入步骤S2的处理;
S2:对于非初次会话,判断用户的当前输入是针对前一次会话的选择还是全新的质问语句;若是选择,则直接返回选择的结果,若是全新质问,则进入步骤S3的处理;
S3:对本次输入的语句通过自然语言处理的切词技术进行切割,得到一个切割后的单词组;然后对单词组进行数据清洗,删除对语义理解无关的内容,最终生成一个干净的、无噪音数据的单词组;
S4:对数据清洗后的单词组中每个单词进行品词,识别每个单词的词性,并根据词性到不同的情感字典中寻找相近单词,并根据不同词性的权重进行加权平均,获得整个语句的情感得分,若是极度消极情绪,则切换到人工客服对应,否则进入步骤S5的处理;
S6:对数据清洗后的单词组使用TF-IDF算法,将单词转换为词向量,并对FAQ文件中的所有问题进行TF-IDF算法进行向量化,生成FAQ文件的词向量库;
S7:将单词组的词向量与词向量库中的每一个向量进行Cosine Similarity计算,得到当前单词组到FAQ词向量库的所有距离;
S8:计算得到的当前单词组到FAQ词向量库的所有距离与设定的阈值1进行比较,若有距离大于设定的阈值1的结果,则直接返回该相似度最高结果对应的回答,否则,计算得到的当前单词组到FAQ词向量库的所有距离与阈值2继续比较,若有大于设定阈值2的结果,则返回所有结果的回答;若均没有,否则进入步骤S9的处理;
S9:对于用户当前输入的内容根据关键字进行主题匹配,在主题内进行关键字匹配,通过槽位识别当前用户输入内容的意图,将匹配中的结果返回给用户,同时将本次会话的内容写到数据库中。
2.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S1所述初次会话的判断依据是超过一定时间未会话。
3.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S3所述对本次输入的语句通过自然语言处理的切词技术进行切割,具体为:对本次输入的语句通过MeCab切词器进行切割。
4.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S3所述对单词组进行数据清洗,删除对语义理解无关的内容,具体为:通过预先作成的噪音文件对单词组进行数据清洗,删除对语义理解无关的内容;所述对语义理解无关的内容包括标点符号和部分助词。
5.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S4所述单词的词性包括形容词、连体词、副词和名词。
6.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S4所述情感得分若为正数,则为积极情绪,若为负数,则为消极情绪。
7.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S4所述极度消极情绪根据设定好的极度消极情绪阈值判断。
8.根据权利要求1所述的一种ChatBot系统中用户日语会话意图识别方法,其特征在于,步骤S4所述情感字典为日本东北大·冈崎研究室的《日语评价极性词典》。
CN201911300518.6A 2019-12-17 2019-12-17 一种ChatBot系统中用户日语会话意图识别方法 Pending CN111046143A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911300518.6A CN111046143A (zh) 2019-12-17 2019-12-17 一种ChatBot系统中用户日语会话意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911300518.6A CN111046143A (zh) 2019-12-17 2019-12-17 一种ChatBot系统中用户日语会话意图识别方法

Publications (1)

Publication Number Publication Date
CN111046143A true CN111046143A (zh) 2020-04-21

Family

ID=70236771

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911300518.6A Pending CN111046143A (zh) 2019-12-17 2019-12-17 一种ChatBot系统中用户日语会话意图识别方法

Country Status (1)

Country Link
CN (1) CN111046143A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666400A (zh) * 2020-07-10 2020-09-15 腾讯科技(深圳)有限公司 消息获取方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858923A (zh) * 2018-12-24 2019-06-07 零犀(北京)科技有限公司 基于机器人的人机对话的方法及装置
US10331402B1 (en) * 2017-05-30 2019-06-25 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
CN109977208A (zh) * 2019-03-22 2019-07-05 北京中科汇联科技股份有限公司 一种融合faq和任务及主动引导的对话系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10331402B1 (en) * 2017-05-30 2019-06-25 Amazon Technologies, Inc. Search and knowledge base question answering for a voice user interface
CN109858923A (zh) * 2018-12-24 2019-06-07 零犀(北京)科技有限公司 基于机器人的人机对话的方法及装置
CN109977208A (zh) * 2019-03-22 2019-07-05 北京中科汇联科技股份有限公司 一种融合faq和任务及主动引导的对话系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666400A (zh) * 2020-07-10 2020-09-15 腾讯科技(深圳)有限公司 消息获取方法、装置、计算机设备及存储介质
CN111666400B (zh) * 2020-07-10 2023-10-13 腾讯科技(深圳)有限公司 消息获取方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
Aleedy et al. Generating and analyzing chatbot responses using natural language processing
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN114580382A (zh) 文本纠错方法以及装置
Adel et al. Features for factored language models for code-Switching speech.
CN110895559A (zh) 模型训练、文本处理方法、装置以及设备
CN112818109B (zh) 邮件的智能回复方法、介质、装置和计算设备
CN107562828B (zh) 多源海事信息搜索与冲突处理系统及方法
CN110096599B (zh) 知识图谱的生成方法及装置
CN108763355B (zh) 一种基于用户的智能机器人交互数据处理系统及方法
CN115309877A (zh) 对话生成方法、对话模型训练方法及装置
CN111046143A (zh) 一种ChatBot系统中用户日语会话意图识别方法
CN113392305A (zh) 关键词的提取方法及装置、电子设备、计算机存储介质
CN108268443A (zh) 确定话题点转移以及获取回复文本的方法、装置
CN112581297A (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN112149403A (zh) 一种确定涉密文本的方法和装置
CN109408621B (zh) 对话情感分析方法和系统
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN111651528A (zh) 基于生成式对抗网络的开放式实体关系抽取方法
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质
CN114491001B (zh) 一种军事领域下的实体搜索方法
Maragoudakis et al. MeteoBayes: Effective plan recognition in a weather dialogue system
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination