CN113297367A - 用户对话衔接语生成的方法及相关设备 - Google Patents

用户对话衔接语生成的方法及相关设备 Download PDF

Info

Publication number
CN113297367A
CN113297367A CN202110726246.7A CN202110726246A CN113297367A CN 113297367 A CN113297367 A CN 113297367A CN 202110726246 A CN202110726246 A CN 202110726246A CN 113297367 A CN113297367 A CN 113297367A
Authority
CN
China
Prior art keywords
processed
similarity
topic
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110726246.7A
Other languages
English (en)
Inventor
姚晓远
袁梦菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110726246.7A priority Critical patent/CN113297367A/zh
Publication of CN113297367A publication Critical patent/CN113297367A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例属于人工智能领域,应用于智慧城市领域中,涉及一种用户对话衔接语生成的方法,包括接收目标用户的话术,作为待处理话术;对所述待处理话术进行关键词提取和话题识别;基于所述识别到的待处理话术的目标话题和衔接语索引为所述待处理话术匹配至少一个候选衔接语;基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给所述目标用户。此外,本申请还涉及区块链技术,所述衔接语、待处理话术数据还存储于区块链中。采用本方法大大提高了模型的灵活性。

Description

用户对话衔接语生成的方法及相关设备
技术领域
本申请涉及语音语义处理领域,特别是涉及一种用户对话衔接语生成的方法、装置、计算机设备和存储介质。
背景技术
对话机器人是人工智能领域重要的应用,在现有技术中可以通过模拟特定对象人群在用户对象讲解中的对话衔接,为用户对象获取更多的正面反馈数据,然后用户对象便可以通过获取的正面反馈数据进行专业技能训练。
传统的对话机器人主要针对问答、任务机器人、限流进行对话。对于对话中的衔接往往需要获取预设的衔接语,不能根据实际情况进行灵活的衔接语生成,造成回复较为死板。此外,还有通过提取互动聊天中的编码特征,并通过权重的方式与当前文本特征进行融合,得到与当前文本对应的对话,因为随机对话的不确定性,通过结合上文信息进行预测的方式,会出现,在话题变化时预测不准确的技术问题。
发明内容
基于此,针对上述技术问题,本申请提供一种用户对话衔接语生成的方法、装置、计算机设备及存储介质,以解决现有技术中根据预设衔接语对话术进行回复,导致的衔接语回复不灵活,预测不准确的技术问题。
一种用户对话衔接语生成的方法,所述方法包括:
接收目标用户通过用户终端发送的话术,作为待处理话术;
对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题;
基于所述目标话题和根据索引算法计算得到的衔接语索引为所述待处理话术匹配至少一个候选衔接语;
基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给所述目标用户所在的用户终端。
一种用户对话衔接语生成的装置,所述装置包括:
数据接收模块,用于接收目标用户通过用户终端发送的话术,作为待处理话术;
文本提取模块,用于对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题;
文本匹配模块,用于基于所述目标话题和根据索引算法计算得到的衔接语索引为所述待处理话术匹配至少一个候选衔接语;
相似计算模块,用于基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给所述目标用户所在的用户终端。
一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述用户对话衔接语生成的方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述用户对话衔接语生成的方法的步骤。
上述用户对话衔接语生成的方法、装置、计算机设备和存储介质,通过在接收到待处理话术后,根据当前的话题和衔接语索引获取至少一个与所述待处理话术对应候选衔接语,最后再根据相关性衰减算法确定与待处理话术最合适的候选衔接语反馈给用户,相对于现有技术中直接根据计算文本相似度得到预设的结果,或者根据权重与当前文本特征进行融合,因为话对话的不确定性,导致的预测不准确的技术问题,而且本申请的技术方案涵盖几乎所有对话的一方可能提出的话术,还解决了现有技术中话术回复不灵活的技术问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为用户对话衔接语生成的方法的应用环境示意图;
图2为用户对话衔接语生成的方法的流程示意图;
图3为用户对话衔接语生成的装置的示意图;
图4为一个实施例中计算机设备的示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的用户对话衔接语生成的方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络以及服务端104,网络用于在终端102和服务端104之间提供通信链路介质,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端102通过网络与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group AudioLayer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的用户对话衔接语生成的方法一般由服务端/终端执行,相应地,用户对话衔接语生成的装置一般设置于服务端/终端设备中。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请可应用于智慧城市领域中,例如,应用于智慧银行、智慧企业、智慧交通、智慧商场中,用于训练对话机器人从而推动智慧城市的建设。
应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
其中,终端102通过网络与服务端104进行通信。目标用户可以通过终端102将话术发送到服务端104,服务端104对话术,即待处理话术进行关键词提取、目标话题识别等操作,并基于识别到的目标话题和衔接语索引获取待处理话术对应的候选衔接语,得到的候选衔接语一般为多个,然后通过相关性衰减算法计算候选衔接语与待处理话术之间的相似度后,将最合适的候选衔接语发送到用户,完成话术的模拟。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户对话衔接语生成的方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:
步骤202,接收目标用户通过用户终端发送的话术,作为待处理话术。
在一些实施例中,本申请的技术方案可以应用于对话机器人中,特别的,在本实施例中,本申请的技术方案应用于客户与企业员工进行业务讲解过程中的对话衔接的模拟的系统中,该对话模拟系统一般包括训练部分和应用部分。在应用部分一般解决现有技术中针对问答、任务机器人或者闲聊机器人的衔接往往只是通过知识图谱的方式进行配置,无法为员工的话术匹配精准的衔接语的技术问题,回复较为死板,容易给用户造成很差的体验。
用户的讲解话术可以是具体某一行业的话术,例如保险行业,话术如:“那么养老到底需要多少钱呢?在不考虑品质养老的前提下,衣食住行,人情往来等基本的话大约需要十几万每年。”
步骤204,对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题。
关键词是能够表达文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。关键词提取是文本挖掘领域的一个分支,是文本检索、文档比较、摘要生成、文档分类和聚类等文本挖掘研究的基础性工作。
进一步地,在本实施例中,通过关键词提取算法提取待处理话术中的关键词,可以通过无监督关键词提取方式,利用现有基于统计特征的关键词提取(TF,TF-IDF)、基于词图模型的关键词提取(PageRank,TextRank)或基于主题模型的关键词提取(LDA)等算法进行关键词抽取。
例如,基于统计特征的关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词。
通过关键词提取算法得到的关键词至少为一个,一般为多个;然后再对得到的至少一个关键词,例如,从待处理话术中的“女性特定疾病保险有必要买吗?”,从中提取的关键词“女性”、“保险”、“疾病”、“特定疾病”这些关键词,然后对这些关键词进行编码处理,得到关键词向量;最后根据关键词向量实现话题识别。
具体地,话题识别是指当前对话的话术所在领域、范围、对话双方围绕的点,一般可以根据预设词表得到该待处理话术的目标话题。
预设词表包括预设关键词,以及与预设关键词之间通过话题映射相关联的对话话题。根据上述提取到的关键词,可以从预设词表中获得至少一个相似度满足业务要求的预设关键词,并根据预设的话题映射的集合得到该预设关键词对应的至少一个对话话题,然后将该对话话题作为待处理话术的目标话题。
其中,话题映射集合,为预设关键词与对话话题之间的映射的集合。
通过这种提前训练好的预设词表,可以迅速查找到当前话术所在的话题,并进行后续的操作,大大提高了衔接语模拟的效率,节省了计算时间。
在一个实施例中,通过以上得到的关键词“女性”、“保险”、“疾病”、“特定疾病”,可以从预设词表中匹配得到对应的相似预设关键词,例如:女性-女人/女生/母亲/妈妈”、“保险-保险”、“疾病-疾病\病痛”、“特定疾病-特殊疾病\专有疾病\职业疾病”;然后根据预设词表中的对话话题映射可以得到“女生应该买什么保险”、“妈妈应该买什么保险”、“未婚应该买什么保险”、“保险的种类”、“适合女性的险种”、“有哪些特殊疾病”、“有哪些职业疾病”、“有哪些特定疾病”等等。通过这种方式,可以迅速定位到目标用户的待处理话术当前所在话题,大大提高了衔接语生成的效率。
进一步地,预设词表的建立方式可以是:
一般地,将海量的业务场景下的对话数据中的词视为特征,首先利用特征向量来表示文本,并采用TF_IDF的方式度量向量每一维(即每个特征)的权重,然后采用聚类方式,将叙述相同的话术,并联系上下文,将叙述相同或者相似话术的文本聚类到同一类中,并对提取出该类话术中的至少一个关键词,作为预设关键词,再对预设关键词进行语义提取,得到对应的对话话题,并建立多条预设关键词与对话话题之间的话题映射。
而对于不同类的话题下的对话话术,可能拥有相同的关键词,本实施例中同一关键词可以存在对应不同对话话题的情况。
所以同一待处理话术中的提取到的每一个关键词,都可能对应不同的话题,而不同的话题下又对应的不同的衔接语,这样就提高了回复待处理话术的话题范围,不仅限于文本相似度,可以大大提高模拟的灵活性。
步骤206,基于目标话题和根据索引算法计算得到的衔接语索引为所述待处理话术匹配至少一个候选衔接语。
根据余弦相似度算法计算待处理话术中的各关键词与预设词表中各预设关键词的相似度,并获取相似度在0.85以上的预设关键词所对应的话术话题,然后再根据话题映射得到对应的目标话题。
其中,为了准确得到候选衔接语,还需要基于对话模型得到衔接语索引,具体地:预训练带属性标签的对话模型;将话术文本和话术文本的属性标签输入到对话模型中,进行带约束的前缀分组搜索,得到与各话术文本对应的衔接语前缀,以及与各衔接语前缀对应的预测概率;基于衔接语过滤集合和预测概率,从各衔接语前缀中筛选得到待定衔接语;建立话术文本的至少一个话术关键词与待定衔接语之间的衔接语索引。
具体地,离线训练一个带属性标签的对话生成模型。
提取已有对话数据里面的标签信息如句式、情感、长短,并用transformer模型进行训练。其中,对话模型就是transformer,由一个编码器encoder和解码器decoder组成,文本和属性都是由编码器encoder进行编码。
然后,根据话术文本生成待定衔接语。
将历史的话术文本、属性标签输入到对话模型中,进行带约束的前缀分组搜索,具体搜索实现流程为:
将话题标签、话术文本、话术文本的句式标签、情感标签以及长短标签输入到transformer模型,以指示transformer模型中的编码器对话术文本、话术文本的句式标签、情感标签以及长短标签进行解码,得到话术文本的语义表示,并指示transformer模型中的解码器对语义表示进行解码处理,得到与各语义表示的话术文本对应的衔接语前缀,以及各衔接语前缀对应的预测概率;并将预测概率是历史的话术文本的实际话术进行对比,得到预测损失,并基于预测损失,通过梯度下降法对对话模型的参数进行调整,直到得到的预测损失满足业务要求,一般地可以选择损失低于0.1时,停止模型的训练,得到最终的对话模型。
进一步地,为了提高对话模型的预测准确率,还可以定时或者不定时获取新的对话数据,对对话模型继续进行训练。
在一些实施例中,可以通过保险领域的保险话术对本申请中衔接语预测的技术方案进行说明:
第一步:训练后的对话模型先将每句保险话术如“那么养老到底需要多少钱呢?在不考虑品质养老的前提下,衣食住行,人情往来等基本的话大约需要十几万每年”与属性标签(养老保险话题、正面情感、陈述句式、短)进行编码,产生的向量:
henc1,henc2,...,hencle
具体地,编码过程为:
先将保险文本的属性标签转换为数字id,再变为embedding,送入transformer模型的编码器encoder中,得到编码输出:
henc1,henc2,...,hencle
第二步:将保险文本中的前缀,如:“嗯,”,“好的”,等进行编码,得到解码器decode前缀的向量:
hdec1,hdec2,...,hdeclp
而且,其中,对话模型不需要知道前缀是前缀,前缀和后续的搜索计算都是完全分开的步骤。
第三步:进行分组约束解码:
首先预测第hdeclp+1步输出的单词,计算该步预测的单词概率,取Topgroup个单词。然后对hdeclp+2步以及之后的步骤,在每个分组内进行beam size(束大小)大小的集束搜索(beam search)进行解码。
其中,Topgroup个单词就是输出每个单词生成的概率,取概率排在前Topgroup的单词;beamsearch的中文解释集束搜索,可以认为是维特比算法的贪心模式,其使用beamsize参数来限制在每一步保留下来的可能性词的数量。
具体地,计算第hdeclp+1步的隐藏向量,再计算该步输出的单词的概率。对当前存在的beam size条路径输出计算单词概率,然后选取概率得分最大的beam size个路径对应的单词,得到衔接语;
具体地,选取概率得分最大的对应的单词,得到衔接语:
对上一步中得到输出概率对应的路径,选取排名最前的beam size条路径;
如果某一路径搜索结束,beam size减一;
重复以上步骤,直到所有路径都搜索完成。
其中,每一步单词概率公式为:
P(yt)=softmax(W*hdec{t-1}+penaltyt)
其中,P(yt)是输出单词概率分布,W为参数,hdec为解码向量,penaltyt向量是一个V长度的向量,具体地在本实施例中,可以为一个词表,其中如果第k个词已经在解码出的词y0,y1…y{t-1}出现过,那么该向量第k维为一个惩罚因子,否则为0。
例如,当前步骤预测得到的单词为“哈”,那么在词表中“哈”为所对应的单词设置一个惩罚因子,例如-100,那么下一次进行单词预测时,得到是“哈”的概率便会大大降低。
本实施例,通过这种设定惩罚因子的方式来避免每一步预测到的单词都是一样的,防止出现保险代理人衔接语为“哈哈哈哈哈哈哈哈哈哈”等不合理衔接语出现。
步骤208,基于关键词,通过相关性衰减算法计算各候选衔接语与待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给目标用户所在的用户终端。
通过相关性衰减算法得到与待处理话术对应的目标衔接语后,服务端将该目标衔接语发送给目标用户所在的用户终端,作为与待处理话术对应的回复。
例如,目标用户发送话术:保险怎么买。本实施例中,对保险怎么买进行关键词提取和话题识别,得到关键词“保险”、“买”,然后可以通过Python中的函数调用,对关键词进行编码处理,得到对应的关键词向量;然后基于预设词表,通过计算文本相似度的方式得到该待处理话术对应的至少一个目标话题;因为该预设词表中还包括多个与目标话题对应的衔接语的映射,所以可以通过这种映射的方式得到至少一个候选衔接语,再通过关键词的方式,得到目标衔接语发送给目标用户所在终端,例如,用户终端通过手机、iPad或者电脑的方发送的话术,那么该目标衔接语最终也可以直接发送到该用户终端上,作为应用本申请的技术方案的系统给用户的回复。
在一个实施例中,本申请的用户终端还可以是对话机器人终端,该机器人终端可以是银行、企业中的机器车、机器人等。
其中,相似度所满足的关系式包含候选衔接语中关键词数量与待处理话术中关键词数量的乘积。
进一步地,相关性衰减算法计算候选衔接语与待处理话术的相似度,主要是计算衔接语与待处理话术共同出现的关键词的数量,本实施例中,可以根据从待处理话术中提取到的关键词,然后通过该相关性衰减算法计算相似度,具体地,通过公式(1)计算得到相似度:
rankscore(context,reply)
=γ*topicscore(context,reply)+(1-γ)*topicscore(context,reply)
=min_max-normalize(basescore+∑tmatchwαt,w-|tnot_match|*β)
(1)
其中,context为待处理话术、reply为候选衔接语,tmatch,w是conte×t和reply共同包含的话题,与话题内的关键词,tnot_match是reply包含但context不包含的关键词集合,γ,α是各关键词的权重,β是衰减权重,min_max_normalize为归一化操作,将需要归一化的数据变成0到1之间的数据,通过该公式(1)最终得到各候选衔接语与待处理话术的相似度,该相似度可以不仅包括关键词之间的文本相似度,还额外地考虑各关键词的权重对相似度的影响,大大提高了上述相似度的准确率。
可选地,还可以通过DSSM模型实现相似度的计算,其中,DSSM模型的全称是DeepStructured Semantic Model,由微软研究院开发,利用深度神经网络把文本(句子,Query,实体等)表示成向量,应用于文本相似度匹配场景下的一个算法。该模型是为了衡量搜索的关键词和被点击的文本标题之间的相关性。DSSM模型的原理比较简单,通过搜索引擎里Query和Document的海量的点击曝光日志,用DNN深度网络把Query和Document表达为低维语义向量,并通过余弦相似度来计算两个语义向量的距离,最终训练出语义相似度模型。该模型既可以用来预测两个句子的语义相似度,又可以获得某句子的低维语义Embedding向量。
进一步,为了提高模型模拟的流畅度,以及真实对话中用户交流的效率,还可以在计算得到相似度的基础上,计算根据公式(2)根据候选衔接语的长度对相似度进行一个筛选,一般地:
Figure BDA0003138769200000101
其中,lengthscore(context,reply)为不同长度的衔接语的权重值,长度超过L的,长度越长,其权重越小,最小为0;通过本实施例可以从得到相似度符合要求的候选衔接语中获取到更加准确的衔接语,避免生成的衔接语太长,导致回复不流畅的技术问题。
上述用户对话衔接语生成的方法中,通过在接收到待处理话术后,根据当前的话题和衔接语索引获取至少一个与所述待处理话术对应候选衔接语,最后再根据相关性衰减算法确定与待处理话术最合适的候选衔接语反馈给用户,相对于现有技术中直接根据计算文本相似度得到预设的结果,本申请的技术方案涵盖几乎所有对话的一方可能提出的话术,解决了现有技术中话术回复不灵活的技术问题。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种用户对话衔接语生成的装置,该用户对话衔接语生成的装置与上述实施例中用户对话衔接语生成的方法一一对应。该用户对话衔接语生成的装置包括:
数据接收模块302,用于接收目标用户通过用户终端发送的话术,作为待处理话术;
文本提取模块304,用于对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题;
文本匹配模块306,用于基于目标话题和衔接语索引为所述待处理话术匹配至少一个候选衔接语;
相似计算模块308,用于基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给所述目标用户所在的用户终端。
进一步地,文本提取模块304,包括:
关键词提取子模块,用于根据关键词提取算法从所述待处理话术中获取至少一个关键词;并
关键词编码子模块,用于通过独热编码对所述关键词进行编码处理,得到关键词向量;
话题匹配子模块,用于获取预设词表,其中,所述预设词表包括预设关键词与其对应的至少一个对话话题的话题映射集合;
相似计算子模块,用于计算所述关键词向量与预设关键词向量之间的相似度,并获取相似度大于第二相似度的预设关键词对应的对话话题,作为所述目标话题。
进一步地,在文本匹配模块306之前,还包括:
训练子模块,用于预训练带属性标签的对话模型;
预测子模块,用于将话术文本和所述话术文本的属性标签输入到所述对话模型中,进行带约束的前缀分组搜索,得到与各所述话术文本对应的衔接语前缀,以及与各所述衔接语前缀对应的预测概率;
筛选子模块,用于基于衔接语过滤集合和所述预测概率,从各所述衔接语前缀中筛选得到待定衔接语;
建立子模块,用于建立所述话术文本的至少一个目标话题与所述待定衔接语之间的衔接语索引。
进一步地,属性标签包括话题标签、句式标签、情感标签以及长短标签,预测子模块,包括:
预测单元,用于将所述话题标签、所述话术文本、所述话术文本的句式标签、情感标签以及长短标签输入到transformer模型,以指示所述transformer模型中的编码器对所述话题标签、所述话术文本、所述话术文本的所述句式标签、所述情感标签以及所述长短标签进行解码,得到所述话术文本的语义表示,并指示所述transformer模型中的解码器对所述语义表示进行解码处理,得到与各所述语义表示的话术文本对应的衔接语前缀,以及各所述衔接语前缀对应的预测概率。
上述用户对话衔接语生成的装置,通过在接收到待处理话术后,根据当前的话题和衔接语索引获取至少一个与所述待处理话术对应候选衔接语,最后再根据相关性衰减算法确定与待处理话术最合适的候选衔接语反馈给用户,相对于现有技术中直接根据计算文本相似度得到预设的结果,或者根据权重与当前文本特征进行融合,因为话对话的不确定性,导致的预测不准确的技术问题,而且本申请的技术方案涵盖几乎所有对话的一方可能提出的话术,解决了现有技术中话术回复不灵活的技术问题。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储衔接语、待处理话术、目标话术等对话数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种用户对话衔接语生成的方法。
其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
本实施例通过在接收到待处理话术后,根据当前的话题和衔接语索引获取至少一个与所述待处理话术对应候选衔接语,最后再根据相关性衰减算法确定与待处理话术最合适的候选衔接语反馈给用户,相对于现有技术中直接根据计算文本相似度得到预设的结果,本申请的技术方案涵盖几乎所有对话的一方可能提出的话术,解决了现有技术中话术回复不灵活的技术问题。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机可读指令,计算机可读指令被处理器执行时实现上述实施例中用户对话衔接语生成的方法的步骤,例如图2所示的步骤202至步骤208,或者,处理器执行计算机可读指令时实现上述实施例中用户对话衔接语生成的装置的各模块/单元的功能,例如图3所示模块302至模块308的功能。
本实施例通过在接收到待处理话术后,根据当前的话题和衔接语索引获取至少一个与所述待处理话术对应候选衔接语,最后再根据相关性衰减算法确定与待处理话术最合适的候选衔接语反馈给用户,相对于现有技术中直接根据计算文本相似度得到预设的结果,或者根据权重与当前文本特征进行融合,因为话对话的不确定性,导致的预测不准确的技术问题,而且本申请的技术方案涵盖几乎所有对话的一方可能提出的话术,解决了现有技术中话术回复不灵活的技术问题。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种用户对话衔接语生成的的方法,其特征在于,所述方法包括:
接收目标用户通过用户终端发送的话术,作为待处理话术;
对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题;
基于所述目标话题和根据索引算法计算得到的衔接语索引为所述待处理话术匹配至少一个候选衔接语;
基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给所述目标用户所在的用户终端。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题,包括:
根据关键词提取算法从所述待处理话术中获取至少一个关键词;并
通过独热编码对所述关键词进行编码处理,得到关键词向量;
获取预设词表,其中,所述预设词表包括预设关键词与其对应的至少一个对话话题的话题映射集合;
计算所述关键词向量与预设关键词向量之间的相似度,并获取相似度大于第二相似度的预设关键词对应的对话话题,作为所述目标话题。
3.根据权利要求1所述的方法,其特征在于,在所述基于所述目标话题和根据索引算法计算得到的衔接语索引为所述待处理话术匹配至少一个候选衔接语之前,还包括:
预训练带属性标签的对话模型;
将话术文本和所述话术文本的属性标签输入到所述对话模型中,进行带约束的前缀分组搜索,得到与各所述话术文本对应的衔接语前缀,以及与各所述衔接语前缀对应的预测概率;
基于衔接语过滤集合和所述预测概率,从各所述衔接语前缀中筛选得到待定衔接语;
建立所述话术文本的至少一个目标话题与所述待定衔接语之间的衔接语索引。
4.根据权利要求3所述的方法,其特征在于,所述属性标签包括话题标签、句式标签、情感标签以及长短标签,所述将话术文本和所述话术文本的属性标签输入到所述对话模型中,进行带约束的前缀分组搜索,得到与各所述话术文本对应的衔接语前缀,以及与各所述衔接语前缀对应的预测概率,包括:
将所述话题标签、所述话术文本、所述话术文本的句式标签、情感标签以及长短标签输入到transformer模型,以指示所述transformer模型中的编码器对所述话题标签、所述话术文本、所述话术文本的所述句式标签、所述情感标签以及所述长短标签进行解码,得到所述话术文本的语义表示,并指示所述transformer模型中的解码器对所述语义表示进行解码处理,得到与各所述语义表示的话术文本对应的衔接语前缀,以及各所述衔接语前缀对应的预测概率。
5.根据权利要求1所述的方法,其特征在于,所述基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,包括:
通过DSSM模型计算所述候选衔接语与所述待处理话术之间的文本相似度,并将所述文本相似度作为所述相似度。
6.根据权利要求1所述的方法,其特征在,所述基于所述关键词,通过相关性衰减计算各所述候选衔接语与所述待处理话术的相似度,还包括:
通过关系式
rankscore(context,reply)
=γ*topicscore(context,reply)+(1-γ)*topicscore(context,reply)
=min_max-normalize(basescore+∑tmatchwαt,w-|tnot_match|*β)
计算所述相似度rankscore(context,reply),其中,context为待处理话术、reply为候选衔接语,tmatch,w是context和reply共同包含的话题,与话题内的关键词,tnot_match是reply包含但context不包含的关键词集合,γ,α是各关键词的权重,β是衰减权重,min_max_normalize为归一化操作,将需要归一化的数据变成0到1之间的数据。
7.一种用户对话衔接语生成的装置,其特征在于,包括:
数据接收模块,用于接收目标用户通过用户终端发送的话术,作为待处理话术;
文本提取模块,用于对所述待处理话术进行关键词提取和话题识别,得到关键词和目标话题;
文本匹配模块,用于基于所述目标话题和根据索引算法计算得到的衔接语索引为所述待处理话术匹配至少一个候选衔接语;
相似计算模块,用于基于所述关键词,通过相关性衰减算法计算各所述候选衔接语与所述待处理话术的相似度,并将不小于第一相似度的候选衔接语作为目标衔接语发送给所述目标用户所在的用户终端。
8.根据权利要求7所述的装置,其特征在于,所述文本提取模块,包括:
关键词提取子模块,用于根据关键词提取算法从所述待处理话术中获取至少一个关键词;并
关键词编码子模块,用于通过独热编码对所述关键词进行编码处理,得到关键词向量;
话题匹配子模块,用于获取预设词表,其中,所述预设词表包括预设关键词与其对应的至少一个对话话题的话题映射集合;
相似计算子模块,用于计算所述关键词向量与预设关键词向量之间的相似度,并获取相似度大于第二相似度的预设关键词对应的对话话题,作为所述目标话题。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202110726246.7A 2021-06-29 2021-06-29 用户对话衔接语生成的方法及相关设备 Pending CN113297367A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110726246.7A CN113297367A (zh) 2021-06-29 2021-06-29 用户对话衔接语生成的方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110726246.7A CN113297367A (zh) 2021-06-29 2021-06-29 用户对话衔接语生成的方法及相关设备

Publications (1)

Publication Number Publication Date
CN113297367A true CN113297367A (zh) 2021-08-24

Family

ID=77329921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110726246.7A Pending CN113297367A (zh) 2021-06-29 2021-06-29 用户对话衔接语生成的方法及相关设备

Country Status (1)

Country Link
CN (1) CN113297367A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970491A (zh) * 2022-08-02 2022-08-30 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970491A (zh) * 2022-08-02 2022-08-30 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质
CN114970491B (zh) * 2022-08-02 2022-10-04 深圳市城市公共安全技术研究院有限公司 一种文本衔接性判断方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN107330049B (zh) 一种新闻热度预估方法及系统
US20210256417A1 (en) System and method for creating data to train a conversational bot
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN112307168B (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
CN112215008A (zh) 基于语义理解的实体识别方法、装置、计算机设备和介质
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN110309275A (zh) 一种对话生成的方法和装置
CN112231569A (zh) 新闻推荐方法、装置、计算机设备及存储介质
CN110046806B (zh) 用于客服派单的方法、装置和计算设备
CN111695591A (zh) 基于ai的面试语料分类方法、装置、计算机设备和介质
CN112085091B (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN112650842A (zh) 基于人机交互的客服机器人意图识别方法及相关设备
CN112836521A (zh) 问答匹配方法、装置、计算机设备及存储介质
CN112699213A (zh) 语音意图识别方法、装置、计算机设备及存储介质
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN114091452A (zh) 一种基于适配器的迁移学习方法、装置、设备及存储介质
CN113297367A (zh) 用户对话衔接语生成的方法及相关设备
CN110931002B (zh) 人机交互方法、装置、计算机设备和存储介质
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN113256395B (zh) 基于推荐图网络的产品推荐方法、装置、设备及存储介质
CN112989046B (zh) 实时话术预判方法、装置、计算机设备和存储介质
CN115238077A (zh) 基于人工智能的文本分析方法、装置、设备及存储介质
CN113656566A (zh) 智能对话处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination