CN112818108B - 基于形近字的文本语义曲解聊天机器人及其数据处理方法 - Google Patents

基于形近字的文本语义曲解聊天机器人及其数据处理方法 Download PDF

Info

Publication number
CN112818108B
CN112818108B CN202110204001.8A CN202110204001A CN112818108B CN 112818108 B CN112818108 B CN 112818108B CN 202110204001 A CN202110204001 A CN 202110204001A CN 112818108 B CN112818108 B CN 112818108B
Authority
CN
China
Prior art keywords
dialogue
text
radicals
word
word dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110204001.8A
Other languages
English (en)
Other versions
CN112818108A (zh
Inventor
梁循
吴佳辰
刘刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Renmin University of China
Original Assignee
Renmin University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Renmin University of China filed Critical Renmin University of China
Priority to CN202110204001.8A priority Critical patent/CN112818108B/zh
Publication of CN112818108A publication Critical patent/CN112818108A/zh
Application granted granted Critical
Publication of CN112818108B publication Critical patent/CN112818108B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于形近字的文本语义曲解聊天机器人及其数据处理方法,其特征在于包括以下步骤:1)进行数据采集准备工作,构建形近字字典;2)从待回复的对话文本中提取文本关键词,并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词;3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复。本发明可以广泛应用于基于形近字的聊天机器人技术领域。

Description

基于形近字的文本语义曲解聊天机器人及其数据处理方法
技术领域
本发明属于基于形近字的聊天机器人技术领域,具体涉及网络数据获取、汉字拆分、自然语言处理、语言模型、基于深度学习的对话生成等技术领域,尤其是涉及一种基于形近字的文本语义曲解聊天机器人及其数据处理方法。
背景技术
基于人工智能技术,聊天机器人可以对提供的对话文本进行分析,并得出回复。目前,聊天机器人已经被应用到教育、问答、客服、公共引导、个人助理等多个领域。在过去的几年中,许多科技公司都投入了不少资金,开发自己的智能对话系统,例如苹果公司的Siri,微软公司的微软小冰、Cortana,国内的像天猫的“天猫精灵”、百度的“小度”等。这些聊天机器人能够分析用户的意图,回答用户的问题,为用户提供帮助。
目前应用广泛的聊天机器人大多数都是基于规则的,开发者人工定义了模板或者数据库在管理固定的对话,当用户提供对话后,根据检索或相关性计算等方法找到最佳匹配的问答对,返回回复内容。这种聊天机器人依赖于定义好的数据库,灵活性差,一般都是为特定领域或者特定任务创建的。随着计算能力和深度学习的研究深入,人们开发了可以自动生成回复的对话生成模型,这种对话生成模型需要优质的网络架构和大量的优质数据,开发难度大。现在应用的利用对话生成模型的聊天机器人通常采用seq2seq架构,这种架构也会易于生成例如“好的”,“我不知道”这类的安全回复。因此,后期人们加入了注意力机制等方法进行优化。这种方法的好处就是对话比较灵活,但是可控性不强,精准度不够高。
目前市场上大多数聊天机器人都在追求回答的准确性,然而关于聊天机器人的一个新的应用方向的研究却很少。也就是说,如何通过将聊天机器人嵌入到社交软件中,帮助用户自动敷衍用户不想进行的聊天,使聊天无法进行下去从而终止对话,利用这样的语言技巧节省繁复的费熟人社交浪费的时间。
发明内容
针对上述问题,本发明的目的是提供一种基于形近字的文本语义曲解聊天机器人及其数据处理方法,通过偏旁部首的知识图谱构建生成形近字字典,利用网络爬虫技术爬取对话数据库,利用语料库训练对话生成模型。当聊天机器人托管对话后,参考形近字字典对关键词进行形近词替换,对替换后的句子利用对话生成模型生成回复,并随机设置回复时间。
为实现上述目的,本发明采取以下技术方案:
本发明的第一个方面,是提供一种基于形近字的文本语义曲解聊天机器人的数据处理方法,其包括以下步骤:
1)进行数据采集准备工作,构建形近字字典;
2)从待回复的对话文本中提取文本关键词,并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词;
3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复。
进一步,所述步骤1)中,构建形近字字典的方法,包括以下步骤:
1.1)从预先构建的偏旁部首的知识图谱中,获取汉字拆分规则对常用字进行拆分,得到常用字所对应的偏旁部首及其剩余部;
1.2)确定相似偏旁部首,并得到各相似偏旁部首之间的相似概率,进而构建相似偏旁部首用户数据字典;
1.3)基于步骤1.1)中得到的常用字的偏旁部首和剩余部件以及步骤1.2)构建的相似偏旁部首用户数据字典,对汉字相同或相似部件进行排列组合,生成各常用字对应的形近字字典。
进一步,所述步骤1.1)中,获取的汉字拆分规则包括:选取“部首”的拆分方式、选取“含有部首及另一个汉字”的拆分方式、选取“不含部首含有另一个汉字”的拆分方式、选取“部首字形”的拆分方式以及“相同组成部件”单一化。
进一步,所述步骤1.3)中,生成各常用字对应的形近字字典的方法为:
首先,对常用字的每个汉字,基于步骤1.1)得到每个汉字的偏旁部首及其剩余部件,并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件,对这些相似部件进行组合,并计算得到其生成相似汉字的相似概率值,进而生成形近字字典;
然后,基于常用字字典对形近字字典中不常用的汉字进行筛选删除,作为最后的形近字字典。
进一步,所述步骤2)中,得到最优候选替代词的方法,包括以下步骤:
2.1)统计对话库句子的词频,使用TF-IDF的方法提取提取待回复的对话文本中的一个关键词作为文本关键词;
2.2)基于提取出的文本关键词,使用形近字字典组合生成该文本关键词的混淆替代集合,并计算得出混淆替代集合中各候选替代词的相似概率;
2.3)基于预先构建的常用口语词词典,对候选替代词进行扫描和语义匹配,结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。
进一步,所述步骤2.2)中,所述候选替代词的相似概率等于该候选替代词中包含的各形近字的相似概率的乘积。
进一步,所述步骤3)中,基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型,对替换后的句子生成回复,并在回复时间内进行回复的方法,包括以下步骤:
3.1)收集社交网络上的历史对话数据,构造对话生成模型语料库,训练对话生成模型;
3.2)基于步骤2)中确定的最优候选替代词得到替换后的待回复对话文本,将替换后的待回复对话文本输入步骤3.1)中构造的对话生成模型,得到回复语句并进行回复。
进一步,所述步骤3.1)中,收集社交网络上的历史对话数据,构造对话生成模型语料库,训练对话生成模型的方法,包括以下步骤:
3.1.1)利用爬虫程序爬取社交网络上的预设数量的对话数据,对所有对话数据进行预处理后构建语料库,并获得训练集和测试集;
3.1.2)将训练集数据输入基于seq2seq和Attention的对话生成模型进行训练,得到训练好的对话生成模型。
进一步,所述步骤3.2)中,基于步骤2)中确定的最优候选词得到替换后的句子,将替换后的句子输入步骤3.1)中的对话生成模型,得到回复语句的方法,包括以下步骤:
3.2.1)基于步骤2)中确定的最优候选词得到替换后的待回复对话文本,把替换后的待回复对话文本输入训练好的对话生成模型,利用该对话生成模型对替换后的待回复对话文本可能产生的回复进行预测,得到回复语句;
3.2.2)基于预先设置的最长回复字数,对回复语句进行判断,如果回复语句超过设定的最长回复字数则认为回复失败;
3.2.3)在达到预设回复时间时,将步骤3.2)中的回复语句进行回复。
本发明的第二个方面,是提供一种基于形近字的文本语义曲解聊天机器人,其包括:
形近字字典构建模块,用于进行数据采集准备工作,构建形近字字典;
关键词替换模块,用于从待回复的对话文本中提取文本关键词,并基于构建的形近字字典得到文本关键词的最优候选替代词;
语义曲解回复模块,用于基于确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明通过建立的形近字字典对待回复文本中的关键词进行替换,以借助形近字来模拟用户看错,实现了帮助用户自动敷衍用户不想进行的聊天的创新应用。
2、本发明由于把知识图谱和对话生成模型相结合,利用偏旁部首知识图谱生成形近字,以实现对对话系统中问句的关键词进行替换,之后生成回答的对话生成模式,使得对话能够自然的结束。
本发明可以广泛应用于聊天机器人领域。
附图说明
图1是本发明实施例中基于形近字的文本语义曲解聊条机器人方法流程图;
图2是本发明实施例中的简明形近字字典例图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
本发明试图探讨聊天机器人的一个新的应用方向,即对提供的语句做出语义曲解并给出回复。对方发送文本信息后,本发明通过借助形近字来模拟用户看错聊天内容,来进行语义曲解,从而使这段对话自然而然的无法继续进行下去。在实际的人与人的打字对话中,也会出现一些错别字的现象,这时候,聊天机器人就可以直接根据错别字内容进行回复。总之,本发明的目标就是通过误解对方想表达的意思,通过语义曲解的方式使用户不愿意进行的对话无法继续。
本发明在获得用户好友的一段文本后,对文本进行分析,采用自然语言处理的方法提取文本中的关键词,然后参考形近字字典对提取的关键词构建混淆词集,其中形近字字典可以提供汉字部件之间的相似概率,通过概率和语义的筛选就可以从混淆词集中获得最优的替换词,把这个词带回原句中作为基于深度学习的对话生成模型的输入,生成回复。
基于这样的发明流程,本发明首先构建了一个形近字字典,该形近字字典参考了偏旁部首知识图谱,通过把汉字拆分成偏旁和剩余部件,参考相似偏旁部首的用户词典,重新组合生成了汉字的形近字字典。
当使用本发明进行托管聊天以后,就可以根据对方发出的文本生成语义曲解的回复,之后设置一个随机回复时间,这个随机回复时间可以设置的稍微长一些,也可以暗示对方这边在忙,不是很方便聊天,以减少对话频率。由此,本发明达到了以语义曲解的方法帮助用户应付的聊天的目的,为用户节约了社交时间。
实施例1
如图1所示,本实施例提供的一种基于形近字的文本语义曲解聊天机器人的数据处理方法,包括以下步骤:
1)进行数据采集准备工作,构建形近字字典。
具体地,包括以下步骤:
1.1)从预先构建的偏旁部首的知识图谱中,获取汉字拆分规则对常用字进行拆分,得到常用字所对应的偏旁部首及其剩余部件。
首先需要获取偏旁部首的知识图谱,该知识图谱为以偏旁部首为基础的、揭示汉字与汉字之间内在关系的语义网络。具体来说,该知识图谱的实体包括现代汉语词典中的部分汉字、将汉字拆分后的偏旁部首及子部分;实体间的关系包括汉字与其组成部分的“组成”关系、字形相似的偏旁部首之间的“形近”关系。
这里本发明主要利用该知识图谱中的汉字拆分规则,对常用字进行拆分,获得常用字拆分后对应的偏旁部首及其剩余部件。本发明参考偏旁部首知识图谱,获得的汉字拆分规则,主要包括:选取“部首”的拆分方式、选取“含有另一个汉字”的拆分方式(含有部首)、选取“含有另一个汉字”的拆分方式(不含有部首)、选取“部首字形”的拆分方式以及“相同组成部件”单一化。根据获取的汉字拆分规则,对常用汉字进行拆分,共形成1476组汉字及其拆分部件。
1.2)确定相似偏旁部首,并得到各相似偏旁部首之间的相似概率,构建相似偏旁部首用户数据字典。
通过文献和资料调研了解容易混淆的偏旁部首,并根据问卷访谈、专家打分等形式确定常见的相似偏旁部首,例如:“冫氵”、“亻彳”等,使汉字在不具备完全相同的部件的时候也能联系起来,并通过问卷调查、专家打分的方式为偏旁部首的相似度确定相似概率。
1.3)基于步骤1.1)中得到的常用字的偏旁部首和剩余部件以及步骤1.2)构建的相似偏旁部首用户数据字典,对汉字相同或相似部件进行排列组合,生成各常用字对应的形近字字典。
具体的,包括以下步骤:
首先,如图2所示,对常用字的每个汉字,基于步骤1.1)得到每个汉字的偏旁部首及其剩余部件,并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件,对这些相似部件进行组合,并计算得到其生成相似汉字的相似概率值,进而生成形近字字典;其中,生成的形近字字典中,每个汉字对应多组数据,每组数据包括一个相似汉字和该相似汉字对应的相似概率值,该相似概率值由该相似汉字中每个部件的相似概率进行相乘得到;
其次,在构成形近字字典后,基于常用字字典对形近字字典中不常用的汉字进行筛选删除,作为最后的形近字字典。
2)从待回复的对话文本中提取文本关键词,并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词。
具体地,包括以下步骤:
2.1)统计对话库句子的词频,使用TF-IDF(词频-逆文档频率算法)的方法提取待回复的对话文本中的一个关键词作为文本关键词,也即提取对话库中TF-IDF值最大的一个词作为文本关键词。
2.2)基于提取出的文本关键词,使用形近字字典组合生成该文本关键词的混淆替代集合,并计算得出混淆替代集合中各候选替代词的相似概率。其中,由于每个形近字对应一个相似概率,因此,候选替代词的相似概率就等于该候选替代词中包含的各形近字的相似概率的乘积。
2.3)基于预先构建的常用口语词词典(可以利用网络爬虫和分词建立),对候选替代词进行扫描和语义匹配,结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。
3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复。
具体地,包括以下步骤:
3.1)收集社交网络上的历史对话数据,构造对话生成模型语料库,训练对话生成模型。
基于深度学习的生成模型大多为seq2seq模型的改进形式,大体的思路就是收集大量对话的数据训练模型,在输入端输入对话的上下文来编码,把真实的回复内容作为训练的目标进行解码,让模型学习到对话中的特征,使训练好的模型对提供的语句可以自动生成回复。本发明采用的模型在传统的seq2seq模型,加入注意力机制来提高对话生成模型对语句关键词的关注程度,解决关键词识别率低的问题,避免生成重复的无意义回复。
具体地,包括以下步骤:
3.1.1)利用爬虫程序爬取社交网络上的大量(例如10w条对话以上)对话数据,对所有对话数据进行预处理后构建语料库,并获得训练集和测试集。
其中,对所有对话数据进行预处理的方法为:首先对所有对话数据进行清洗和筛选,删除掉回复内容过长或过短(例如小于2个字或超过50个字)的数据,并剔除乱码等作为初始数据集;然后,从初始数据集中筛选出其中回复为问句的对话,作为训练对话生成模型的语料库,存储在txt文件中;最后,把语料库中的对话数据随机划分成为训练集和测试集。
3.1.2)将训练集数据输入基于seq2seq和Attention的对话生成模型进行训练,得到训练好的对话生成模型。
具体的,包括以下步骤:
①对语料库中的语句进行分词,构建词典以及词典的映射关系;
②将语料库拆分为问、答数据集;
③训练词向量,训练方法为本领域技术人员公知技术,本发明在此不再赘述。
④利用tensorflow框架编写seq2seq和Attention模型的Encoder和Decoder模块和损失函数。
⑤训练模型,更改模型参数以得到一个较好的结果。
⑥保存训练好的模型。
3.2)基于步骤2)中确定的最优候选替代词得到替换后的待回复对话文本,将替换后的待回复对话文本输入步骤3.1)中构造的对话生成模型,得到回复语句并进行回复。
包括以下步骤:
3.2.1)基于步骤2)中确定的最优候选词得到替换后的句子,把替换后的句子输入训练好的对话生成模型,利用该对话生成模型对替换后的句子可能产生的回复进行预测,得到回复语句;
3.2.2)基于预先设置的最长回复字数,对回复语句进行判断,如果回复语句超过设定的最长回复字数则认为回复失败,则不进行回复;
3.2.3)在达到预设回复时间时,基于步骤3.2)中的回复语句进行回复。
获得回复语句以后,设置一个随机回复时间,例如2分钟到2小时,这个时间可以设置的稍微长一些,也可以暗示对方这边在忙,不是很方便聊天,以减少对话频率。当然,该随机回复时间也可以由用户自定义。特地的,当设置的随机回复时间很长时,可以将回复语句定义为“不好意思,刚才在忙”,同时加上生成的回复语句。
通过以上步骤,可以托管用户的聊天,进行基于谐音字替换的语义曲解回复。
实施例2
本实施例提供一种基于形近字的文本语义曲解聊天机器人,其包括:形近字字典构建模块,用于进行数据采集准备工作,构建形近字字典;关键词替换模块,用于从待回复的对话文本中提取文本关键词,并基于构建的形近字字典得到文本关键词的最优候选替代词;语义曲解回复模块,用于基于确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。

Claims (6)

1.一种基于形近字的文本语义曲解聊天机器人的数据处理方法,其特征在于包括以下步骤:
1)进行数据采集准备工作,构建形近字字典;
2)从待回复的对话文本中提取文本关键词,并基于步骤1)中构建的形近字字典得到文本关键词的最优候选替代词;
3)基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复;
所述步骤1)中,构建形近字字典的方法,包括以下步骤:
1.1)从预先构建的偏旁部首的知识图谱中,获取汉字拆分规则对常用字进行拆分,得到常用字所对应的偏旁部首及其剩余部;
1.2)确定相似偏旁部首,并得到各相似偏旁部首之间的相似概率,进而构建相似偏旁部首用户数据字典;
1.3)基于步骤1.1)中得到的常用字的偏旁部首和剩余部件以及步骤1.2)构建的相似偏旁部首用户数据字典,对汉字相同或相似部件进行排列组合,生成各常用字对应的形近字字典;
所述步骤1.1)中,获取的汉字拆分规则包括:选取“部首”的拆分方式、选取“含有部首及另一个汉字”的拆分方式、选取“不含部首含有另一个汉字”的拆分方式、选取“部首字形”的拆分方式以及“相同组成部件”单一化;
所述步骤1.3)中,生成各常用字对应的形近字字典的方法为:
首先,对常用字的每个汉字,基于步骤1.1)得到每个汉字的偏旁部首及其剩余部件,并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件,对这些相似部件进行组合,并计算得到其生成相似汉字的相似概率值,进而生成形近字字典;
然后,基于常用字字典对形近字字典中不常用的汉字进行筛选删除,作为最后的形近字字典;
所述步骤2)中,得到最优候选替代词的方法,包括以下步骤:
2.1)统计对话库句子的词频,使用TF-IDF的方法提取提取待回复的对话文本中的一个关键词作为文本关键词;
2.2)基于提取出的文本关键词,使用形近字字典组合生成该文本关键词的混淆替代集合,并计算得出混淆替代集合中各候选替代词的相似概率;
2.3)基于预先构建的常用口语词词典,对候选替代词进行扫描和语义匹配,结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。
2.如权利要求1所述的基于形近字的文本语义曲解聊天机器人的数据处理方法,其特征在于:所述步骤2.2)中,所述候选替代词的相似概率等于该候选替代词中包含的各形近字的相似概率的乘积。
3.如权利要求1所述的基于形近字的文本语义曲解聊天机器人的数据处理方法,其特征在于:所述步骤3)中,基于步骤2)中确定的最优候选替代词以及预先构建的对话生成模型,对替换后的句子生成回复,并在回复时间内进行回复的方法,包括以下步骤:
3.1)收集社交网络上的历史对话数据,构造对话生成模型语料库,训练对话生成模型;
3.2)基于步骤2)中确定的最优候选替代词得到替换后的待回复对话文本,将替换后的待回复对话文本输入步骤3.1)中构造的对话生成模型,得到回复语句并进行回复。
4.如权利要求3所述的基于形近字的文本语义曲解聊天机器人的数据处理方法,其特征在于:所述步骤3.1)中,收集社交网络上的历史对话数据,构造对话生成模型语料库,训练对话生成模型的方法,包括以下步骤:
3.1.1)利用爬虫程序爬取社交网络上的预设数量的对话数据,对所有对话数据进行预处理后构建语料库,并获得训练集和测试集;
3.1.2)将训练集数据输入基于seq2seq和Attention的对话生成模型进行训练,得到训练好的对话生成模型。
5.如权利要求3所述的基于形近字的文本语义曲解聊天机器人的数据处理方法,其特征在于:所述步骤3.2)中,基于步骤2)中确定的最优候选词得到替换后的句子,将替换后的句子输入步骤3.1)中的对话生成模型,得到回复语句的方法,包括以下步骤:
3.2.1)基于步骤2)中确定的最优候选词得到替换后的待回复对话文本,把替换后的待回复对话文本输入训练好的对话生成模型,利用该对话生成模型对替换后的待回复对话文本可能产生的回复进行预测,得到回复语句;
3.2.2)基于预先设置的最长回复字数,对回复语句进行判断,如果回复语句超过设定的最长回复字数则认为回复失败;
3.2.3)在达到预设回复时间时,将步骤3.2)中的回复语句进行回复。
6.一种基于形近字的文本语义曲解聊天机器人,其特征在于,包括:
形近字字典构建模块,用于进行数据采集准备工作,构建形近字字典;
关键词替换模块,用于从待回复的对话文本中提取文本关键词,并基于构建的形近字字典得到文本关键词的最优候选替代词;
语义曲解回复模块,用于基于确定的最优候选替代词以及预先构建的对话生成模型,对替换后的待回复对话文本生成回复,并在设定的回复时间内进行回复;
所述构建形近字字典,包括:
从预先构建的偏旁部首的知识图谱中,获取汉字拆分规则对常用字进行拆分,得到常用字所对应的偏旁部首及其剩余部;
确定相似偏旁部首,并得到各相似偏旁部首之间的相似概率,进而构建相似偏旁部首用户数据字典;
基于得到的常用字的偏旁部首和剩余部件以及构建的相似偏旁部首用户数据字典,对汉字相同或相似部件进行排列组合,生成各常用字对应的形近字字典;
所述获取的汉字拆分规则包括:选取“部首”的拆分方式、选取“含有部首及另一个汉字”的拆分方式、选取“不含部首含有另一个汉字”的拆分方式、选取“部首字形”的拆分方式以及“相同组成部件”单一化;
所述生成各常用字对应的形近字字典,包括:
首先,对常用字的每个汉字,基于每个汉字的偏旁部首及其剩余部件,并在相似偏旁部首用户数据字典中找到拆分的每个部件对应的相似部件,对这些相似部件进行组合,并计算得到其生成相似汉字的相似概率值,进而生成形近字字典;
然后,基于常用字字典对形近字字典中不常用的汉字进行筛选删除,作为最后的形近字字典;
所述得到最优候选替代词,包括:
统计对话库句子的词频,使用TF-IDF的方法提取提取待回复的对话文本中的一个关键词作为文本关键词;
基于提取出的文本关键词,使用形近字字典组合生成该文本关键词的混淆替代集合,并计算得出混淆替代集合中各候选替代词的相似概率;
基于预先构建的常用口语词词典,对候选替代词进行扫描和语义匹配,结合语义匹配的结果和候选替代词的相似概率评分排序获得最优的候选替代词。
CN202110204001.8A 2021-02-24 2021-02-24 基于形近字的文本语义曲解聊天机器人及其数据处理方法 Active CN112818108B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110204001.8A CN112818108B (zh) 2021-02-24 2021-02-24 基于形近字的文本语义曲解聊天机器人及其数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110204001.8A CN112818108B (zh) 2021-02-24 2021-02-24 基于形近字的文本语义曲解聊天机器人及其数据处理方法

Publications (2)

Publication Number Publication Date
CN112818108A CN112818108A (zh) 2021-05-18
CN112818108B true CN112818108B (zh) 2023-10-13

Family

ID=75865259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110204001.8A Active CN112818108B (zh) 2021-02-24 2021-02-24 基于形近字的文本语义曲解聊天机器人及其数据处理方法

Country Status (1)

Country Link
CN (1) CN112818108B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220266A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 機械翻訳装置および機械翻訳方法
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN109086266A (zh) * 2018-07-02 2018-12-25 昆明理工大学 一种文本形近字的检错与校对方法
CN109101482A (zh) * 2018-07-02 2018-12-28 昆明理工大学 一种针对文本形近字错误的定位方法
CN109344387A (zh) * 2018-08-01 2019-02-15 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN110457459A (zh) * 2019-08-16 2019-11-15 深圳前海达闼云端智能科技有限公司 基于人工智能的对话生成方法、装置、设备及存储介质
CN110489760A (zh) * 2019-09-17 2019-11-22 达而观信息科技(上海)有限公司 基于深度神经网络文本自动校对方法及装置
CN111723791A (zh) * 2020-06-11 2020-09-29 腾讯科技(深圳)有限公司 文字纠错方法、装置、设备及存储介质
CN111984767A (zh) * 2019-05-23 2020-11-24 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备
CN112183072A (zh) * 2020-10-16 2021-01-05 北京奇艺世纪科技有限公司 一种文本纠错方法、装置、电子设备及可读存储介质
CN112231451A (zh) * 2020-10-12 2021-01-15 中国平安人寿保险股份有限公司 指代词恢复方法、装置、对话机器人及存储介质
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101485940B1 (ko) * 2013-08-23 2015-01-27 네이버 주식회사 시멘틱 뎁스 구조 기반의 검색어 제시 시스템 및 방법

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004220266A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 機械翻訳装置および機械翻訳方法
CN107357778A (zh) * 2017-06-22 2017-11-17 达而观信息科技(上海)有限公司 一种变形词的识别验证方法及系统
CN109933779A (zh) * 2017-12-18 2019-06-25 苏宁云商集团股份有限公司 用户意图识别方法及系统
CN109086266A (zh) * 2018-07-02 2018-12-25 昆明理工大学 一种文本形近字的检错与校对方法
CN109101482A (zh) * 2018-07-02 2018-12-28 昆明理工大学 一种针对文本形近字错误的定位方法
CN109344387A (zh) * 2018-08-01 2019-02-15 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN111984767A (zh) * 2019-05-23 2020-11-24 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备
CN110457459A (zh) * 2019-08-16 2019-11-15 深圳前海达闼云端智能科技有限公司 基于人工智能的对话生成方法、装置、设备及存储介质
CN110489760A (zh) * 2019-09-17 2019-11-22 达而观信息科技(上海)有限公司 基于深度神经网络文本自动校对方法及装置
CN111723791A (zh) * 2020-06-11 2020-09-29 腾讯科技(深圳)有限公司 文字纠错方法、装置、设备及存储介质
CN112231451A (zh) * 2020-10-12 2021-01-15 中国平安人寿保险股份有限公司 指代词恢复方法、装置、对话机器人及存储介质
CN112183072A (zh) * 2020-10-16 2021-01-05 北京奇艺世纪科技有限公司 一种文本纠错方法、装置、电子设备及可读存储介质
CN112396049A (zh) * 2020-11-19 2021-02-23 平安普惠企业管理有限公司 文本纠错方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
龚永罡 ; 汪昕宇 ; 付俊英 ; 王蕴琪 ; .面向新媒体领域的错别字自动校对.《信息技术与信息化》.2018,(第10期),78-80. *

Also Published As

Publication number Publication date
CN112818108A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
TWI732271B (zh) 人機對話方法、裝置、電子設備及電腦可讀媒體
Lebret et al. Neural text generation from structured data with application to the biography domain
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
WO2017092380A1 (zh) 用于人机对话的方法、神经网络系统和用户设备
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN114116994A (zh) 一种迎宾机器人对话方法
Kusal et al. AI-based conversational agents: A scoping review from technologies to future directions
CN108280218A (zh) 一种基于检索和生产混合问答的流程系统
CN111460132A (zh) 一种基于图卷积神经网络的生成式会议摘要方法
CN112685550B (zh) 智能问答方法、装置、服务器及计算机可读存储介质
CN112307168A (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
CN111523328B (zh) 一种智能客服语义处理方法
Aalipour et al. Applications of sequence to sequence models for technical support automation
Su et al. Follow-up Question Generation Using Pattern-based Seq2seq with a Small Corpus for Interview Coaching.
CN113672720A (zh) 一种基于知识图谱和语义相似度的电力审计问答方法
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
CN115062003B (zh) 基于gpt2的云erp社区生成式问答方法
Alshammari et al. TAQS: an Arabic question similarity system using transfer learning of BERT with BILSTM
Varghese et al. A standalone generative conversational interface using deep learning
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
Hong et al. Comprehensive technology function product matrix for intelligent chatbot patent mining
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
CN117312509A (zh) 一种海量信息下基于大语言模型的知识库问答方法及装置
CN117235215A (zh) 基于大模型和知识图谱的生成对话方法、系统及介质
CN112818108B (zh) 基于形近字的文本语义曲解聊天机器人及其数据处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant