CN112163075A - 一种信息推荐方法、装置、计算机设备和存储介质 - Google Patents

一种信息推荐方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112163075A
CN112163075A CN202011033050.1A CN202011033050A CN112163075A CN 112163075 A CN112163075 A CN 112163075A CN 202011033050 A CN202011033050 A CN 202011033050A CN 112163075 A CN112163075 A CN 112163075A
Authority
CN
China
Prior art keywords
text information
data
historical conversation
conversation data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011033050.1A
Other languages
English (en)
Inventor
王奇
邱学侃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lexuebang Network Technology Co ltd
Original Assignee
Beijing Lexuebang Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lexuebang Network Technology Co ltd filed Critical Beijing Lexuebang Network Technology Co ltd
Priority to CN202011033050.1A priority Critical patent/CN112163075A/zh
Publication of CN112163075A publication Critical patent/CN112163075A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种信息推荐的方法、装置、计算机设备和存储介质,其中,该方法包括:在接收到第一类文本信息的情况下,提取所述第一类文本信息的第一语义特征;从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,所述数据库中包含有第一类文本信息、第二类文本信息以及所述第一类文本信息所对应的语义特征之间的对应关系;获取目标语义特征对应的第二类文本信息并返回。本公开实施例使智能问答系统能够更加灵活的应对用户的问题和需求,提高智能问答系统的服务质量和服务效率。

Description

一种信息推荐方法、装置、计算机设备和存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种信息推荐方法、装置、计算机设备和存储介质。
背景技术
在线人工客服系统为企业提供与用户对话的平台,是企业提供客户服务必不可少的工具之一,用户通过企业提供的在线人工客服系统进行业务咨询。随着人工智能技术的发展,作为在线人工客服系统的发展未来趋势之一的智能问答系统为企业与海量用户之间的沟通建立了一种快捷有效的解决方案。
但是,智能问答系统在解答用户问题的过程中,无法感知用户情绪,特别是针对业务投诉的应用场景下,智能问答系统针对用户反馈的问题回复机械,无法根据用户对问答的体验反馈及时去改变回答的方式和内容,导致用户的服务体验较差,降低了智能问答系统的服务效率和服务质量。
发明内容
有鉴于此,本公开实施例至少提供一种信息推荐方法、装置、计算机设备和存储介质,用以提高智能问答系统的服务质量和服务效率。
第一方面,本公开实施例提供了一种信息推荐方法,包括:
在接收到第一类文本信息的情况下,提取所述第一类文本信息的第一语义特征;
从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,所述数据库中包含有第一类文本信息、第二类文本信息以及所述第一类文本信息所对应的语义特征之间的对应关系;
获取目标语义特征对应的第二类文本信息并返回。
在一种可能的实施方式中,所述数据库是按照以下方法建立的:
获取若干条历史会话数据,所述历史会话数据中包含第一类文本信息及其对应的第二类文本信息和所述历史会话数据对应的等级信息;
基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,所述语义识别模型为基于带有标签的历史会话样本数据进行训练得到的;
在判断出任一历史会话数据为目标历史会话数据的情况下,提取所述目标历史会话数据中包含的第一类文本信息的第二语义特征;
建立所述目标历史会话数据中包含的第一类文本信息及其对应的第二类文本信息和第二语义特征之间的对应关系并添加到所述数据库中。
在一种可能的实施方式中,所述等级信息包括情感参数;以及
所述情感参数为按照以下方法生成的:
针对所述历史会话数据包含的任一条第一类文本信息,利用预先训练的情感分类模型确定该条第一类文本信息的情感得分;
确定所述历史会话数据包含的所有第一类文本信息的情感得分均值为该历史会话数据的情感参数。
在一种可能的实施方式中,所述等级信息还包括评价参数;以及
基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,具体包括:
基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;
根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;
按照各历史会话数据的排列顺序,选取预设数量的历史会话数据为目标历史会话数据。
在一种可能的实施方式中,基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,具体包括:
基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;
根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;
确定评分不小于预设阈值的历史会话数据为所述目标历史会话数据,所述预设阈值为根据各历史会话数据的排列顺序,选取的满足预设比例的最后一条历史会话数据所对应的评分。
在一种可能的实施方式中,所述历史会话数据包括语音数据和图片数据;以及
在基于所述等级信息,利用预先训练的语义识别模型判断所述历史会话数据是否为目标历史会话数据之前,还包括:
删除所述图片数据,并将所述语音数据转换为文本数据;或者,将所述语音数据和所述图片数据转换为文本数据。
在一种可能的实施方式中,从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,包括:
确定第一语义特征和所述数据库中各个第一类文本信息的语义特征的相似度;
确定相关度最大的语义特征为与所述第一语义特征匹配的目标语义特征。
第二方面,本公开实施例还提供一种信息推荐装置,包括:
提取模块,用于在接收到第一类文本信息的情况下,提取所述第一类文本信息的第一语义特征;
查找模块,用于从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,所述数据库中包含有第一类文本信息、第二类文本信息以及所述第一类文本信息所对应的语义特征之间的对应关系;
获取模块,用于获取目标语义特征对应的第二类文本信息并返回。
在一种可能的实施方式中,所述装置还包括建立模块和判断模块;以及
所述获取模块,还用于获取若干条历史会话数据,所述历史会话数据中包含第一类文本信息及其对应的第二类文本信息和所述历史会话数据对应的等级信息;
所述判断模块,用于基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,所述语义识别模型为基于带有标签的历史会话样本数据进行训练得到的;
所述提取模块,还用于在所述判断模块判断出任一历史会话数据为目标历史会话数据的情况下,提取所述目标历史会话数据中包含的第一类文本信息的第二语义特征;
所述建立模块,用于建立所述目标历史会话数据中包含的第一类文本信息及其对应的第二类文本信息和第二语义特征之间的对应关系并添加到所述数据库中。
在一种可能的实施方式中,所述等级信息包括情感参数;以及
所述装置还包括生成模块;
所述生成模块,用于针对所述历史会话数据包含的任一条第一类文本信息,利用预先训练的情感分类模型确定该条第一类文本信息的情感得分;确定所述历史会话数据包含的所有第一类文本信息的情感得分均值为该历史会话数据的情感参数。
在一种可能的实施方式中,所述等级信息还包括评价参数;以及
所述判断模块,具体用于基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;按照各历史会话数据的排列顺序,选取预设数量的历史会话数据为目标历史会话数据。
在一种可能的实施方式中,所述判断模块,具体用于基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;
根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;
确定评分不小于预设阈值的历史会话数据为所述目标历史会话数据,所述预设阈值为根据各历史会话数据的排列顺序,选取的满足预设比例的最后一条历史会话数据所对应的评分。
在一种可能的实施方式中,所述历史会话数据包括语音数据和图片数据;以及
所述装置还包括删除模块和转换模块;
所述删除模块,用于在所述判断模块基于所述等级信息,利用预先训练的语义识别模型判断所述历史会话数据是否为目标历史会话数据之前,删除所述图片数据;
所述转换模块,用于在所述判断模块基于所述等级信息,利用预先训练的语义识别模型判断所述历史会话数据是否为目标历史会话数据之前,将所述语音数据转换为文本数据,或者将所述语音数据和所述图片数据转换为文本数据。
在一种可能的实施方式中,所述查找模块,具体用于确定第一语义特征和所述数据库中各个第一类文本信息的语义特征的相似度;确定相关度最大的语义特征为与所述第一语义特征匹配的目标语义特征。
第三方面,本公开实施例还提供一种计算机设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
第四方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面中任一种可能的实施方式中的步骤。
关于上述信息推荐装置、计算机设备和存储介质的效果描述参见上述信息推荐方法的说明,这里不再赘述。
本公开实施例提供的信息推荐的方法、装置、计算机设备和存储介质,通过根据语义特征从数据库中查找与获取的第一类文本信息匹配的数据库中的第一类文本信息,然后查找数据库中该第一类文本信息对应的第二类文本信息并返回,相较于现有技术中智能系统无法根据历史数据吸取优秀信息提升工作质量,本公开实施例能根据历史数据筛选出优质信息,推荐给智能系统,保证智能系统在之前的工作基础上作出更优质的服务,进一步提升服务质量。
进一步,本公开实施例提供的信息推荐方法,还可以根据多条历史会话数据的等级信息和预先定义的语义识别模型筛选出目标历史会话数据,能把历史会话数据中的优质内容荣提取出来,建立一个优质内容的数据库,实现了信息筛选,方便对数据的进一步调用。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1a示出了本公开实施例所提供的一种信息推荐方法的应用场景图;
图1b示出了本公开实施例所提供的一种信息推荐方法的流程图;
图2示出了本公开实施例所提供的根据预先定义的语义识别模型建立数据库方法的流程图;
图3示出了本公开实施例所提供的情感参数生成方法的流程图;
图4示出了本公开实施例所提供的一种信息推荐装置的示意图;
图5示出了本公开实施例所提供的一种计算机设备的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
另外,本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
经研究发现,智能问答系统在解答用户的问题过程中回复机械呆板,无法及时感知用户情绪,降低了服务质量和服务效率,影响了用户体验。
基于上述研究,本公开提供了一种信息推荐方法,通过提取在线人工客服系统的历史会话数据,挑选出用户反馈好的优质历史会话数据建立优质问答数据库,基于建立的数据库为智能问答系统提供更好的服务信息,使得智能问答系统能够根据客户的反馈不断地提升服务质量,更加灵活的应对用户的问题和需求,提高服务效率。
针对以上方案所存在的缺陷,均是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案,都应该是发明人在本公开过程中对本公开做出的贡献。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
如图1a所示,其为本发明实施例提供的一种信息推荐方法的应用场景示意图。用户10通过终端设备11中安装的应用客户端访问应用服务器12,其中,应用客户端可以为网页的浏览器,也可以为安装于终端设备,如手机,平板电脑等中的应用程序客户端,或者嵌入在其他应用程序中的小程序或者落地页中等。终端设备11与应用服务器12之间通过网络进行通信连接,该网络可以为局域网、蜂窝网和广域网等。终端设备可以为用户设备(UserEquipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字处理(PersonalDigital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等。应用服务器12可以为任何能够提供互联网服务的设备。
本公开实施例提供的一种信息推荐方法可以应用于应用服务器12中,以下以服务器执行本公开实施例提供的信息推荐方法为例进行说明。在一些可能的实现方式中,该信息推荐方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
随着智能客服系统的应用越来越广泛,人工在线客服系统已经从原来简单的企业与客户之间沟通的工具,逐渐演变为信息枢纽的交互地。
实施例一
参见图1b所示,为本公开实施例一提供的信息推荐方法的流程图,该信息推荐方法可以应用在多种不同的场景下,本公开不做限定,为了便于说明,本实施例以该信息推荐方法应用于智能客服回答用户的问题的场景为例进行说明,所述方法包括以下步骤,其中:
S101:在接收到第一类文本信息的情况下,提取第一类文本信息的第一语义特征。
以本公开实施例应用于智能问答系统为例,在智能问答系统中,第一类文本信息可以为用户所咨询问题对应的文本信息,第二类文本信息可以为智能问答系统解答用户所咨询问题的文本信息。
当用户存在业务咨询需求时,可以通过智能问答系统提交业务咨询问题。为了便于描述,记接收到的第一类文本信息为query,提取该第一类文本信息的第一语义特征记为w_q。针对用户提交的业务咨询问题,由人工客服或者机器人客服提供相应的解答。
S102:从预先建立的数据库中查找与第一语义特征匹配的目标语义特征。
这里的数据库是根据所有历史会话数据中的多个优质历史会话数据建立的,历史会话数据是服务器12收集的,将每一会话数据记录为一个session,里边包含有图片数据、语音数据以及文本数据等。
在所有的历史会话数据中挑选出多个优质的历史会话数据session建立数据库,每个历史会话数据中都包含有多条第一类文本信息和第二类文本信息,第一类文本信息记为q,第二类文本信息记为a,第二类文本信息和第一类文本信息是有对应关系的。应当说明的是,不同的第一类文本信息可以记为q1、q2、q3…等,与之对应的第二类文本信息就记为a1、a2、a3…等。
数据库中包含多个历史会话数据session,也即包含多条第一类文本信息、第二类文本信息以及第一类文本信息所对应的语义特征(后称第一类文本信息的语义特征)之间的对应关系。第一类文本信息的语义特征可以在建立数据库之前对所有历史会话数据中的第一类文本信息提取语义特征然后建立数据库;也可以在建立数据库后,对数据库中的第一类文本信息提取语义特征,这里不做限定。数据库中的第一类文本信息的语义特征记为w_qlist,相应的语义特征的标记根据q1、q2、q3…也要对应的记为w_q1list、w_q2list、w_q3list…。
针对每一历史会话数据session构建一个历史会话数据集合:当对所有的用户聊天记录进行筛选优质内容建立数据库之前就对q提取语义特征,则每个用户的数据集合就为slist={s|s=(session,q,a,w_qlist)},如果是在建立数据可之后针对数据库中的q提取语义特征,那么数据库中的每个用户数据集合就为slist={s|s=(session,q,a,w_qlist)。
确定步骤S101中的query的第一语义特征w_q与数据库中所有的第一类文本信息的语义特征w_qlist的相似度,语义相似度记为w,相应的对应于w_q1list、w_q2list、w_q3lis…,语义相似度也记为w1、w2、w3…;确定相似度最大的语义特征为与第一语义特征w_q匹配的目标语义特征。
具体的建立数据库的方法可以参照图2所示的方法流程,将在实施例二里详细介绍,这里不再赘述。
以本公开实施例应用于智能问答系统为例,历史会话数据是客服(包括人工客服和智能机器人客服)解答用户咨询问题过程中产生的的会话信息,每一次业务咨询所产生的会话信息以及用户针对本次业务咨询的评价参数组成本次业务咨询对应的历史会话数据session,每条会话信息中都可能包含有图片、文本、语音任一项形式或者全部形式的信息,为了保证对数据处理的便捷和效率,可将语音聊天数据和图片转换为文本信息,有时候,也可将每条会话信息中的图片删除,然后对每个session中的文本信息进行识别分类,确认哪些是第一类文本信息q,哪些是第二类文本信息a,在此场景下,q就是用户咨询的问题,a就是客服针对于用户咨询问题所作出的回答,问题和回答是有对应关系的,就是说q和a是有一定的对应关系的。对每一用户的聊天记录session构建一个数据集合slist,当对所有的用户聊天记录进行筛选优质内容建立数据库之前就对q提取语义特征,则每个用户的数据集合就为slist={s|s=(session,q,a,w_qlist)},如果是在建立数据可之后针对数据库中的q提取语义特征,那么数据库中的每个用户数据集合就为slist={s|s=(session,q,a,w_qlist)。
当智能客服新接收到一个用户的问题query,提取了这个新接收的问题query的语义特征,得到第一语义特征w_q,确定w_q与数据库中所有的第一类文本信息的w_qlist的相似度w,假设q2对应的w_q2list与w_q的相似度w最大,则w_q2list就是目标语义特征。
S103:获取目标语义特征对应的第二类文本信息并返回。
根据第一类文本信息的语义特征可以查找到对应的第一类文本信信,根据第一类文本信息可以查找到对应的第二类文本信息,也即根据w_qlist可以找到数据库中的q,根据q可以找到数据库中q对应的a,最终间接的实现了根据w_qlist找到对应的a。
以本公开实施例应用于智能问答系统为例,步骤S102中确定w_q2list是目标语义特征,则根据目标语义特征w_q2list可以查找到数据库中对应的用户问题q2,根据用户问题q2可以找到数据库中对应于q2的优质回答a2,返回优质回答a2,智能客服可以按照a2所示的内容去应答用户的新问题query。
本实施例通过根据语义特征从数据库中查找与获取的第一类文本信息匹配的数据库中的第一类文本信息,然后查找数据库中该第一类文本信息对应的第二类文本信息并返回,相较于现有技术中智能系统无法根据历史数据吸取优秀信息提升工作质量,降低服务效率,本公开实施例能根据历史数据筛选出优质信息,推荐给智能系统,保证智能系统在之前的工作基础上作出更优质的服务,进一步提升服务质量。
实施例二
为了进一步说明实施例一中的数据库是如何建立的,实施二将结合图2所示的流程进行说明,具体实施时,该数据库可以应用于多个场景,这里不做限定,为了方便说明,此处以应用于智能客服回答用户的问题的场景为例,具体包括以下步骤:
S201:获取若干条历史会话数据。
随着智能客服系统的应用越来越广泛,其已经从原来简单的企业与客户之间沟通的工具,逐渐演变为信息枢纽的交互地。基于此,本公开实施例中,可以通过智能客服系统收集大量的历史会话数据,其中,将用户与智能问答系统之间的一次问答所产生的会话信息及其对应的等级信息作为一条历史会话数据,等级信息可以包括用户针对某一次业务咨询的评价参数,评价参数是用户10通过终端设备11反馈给应用服务器12的,记为v,评价参数可以用评分来表示,也可以采用星级制,不同星级对应的评分不同。因此,每一条历史会话数据中包含有第一类文本信息和第二类文本信息以及用户针对第一类文本信息的等级信息。
具体实施时,智能问答系统收集的历史会话数据可能包含有图片数据、语音数据以及文本数据等。基于此,本公开实施例中,在利用历史会话数据建立数据库之前,首先对收集的历史会话数据进行预处理,预处理包括删除其中的图片数据,将语音数据转换问文本数据等等。
在一些实施例中,图片数据中可能包含一些有效数据,例如在具体的问答场景中图片数据会包含一些和文本数据相关的内容,比如图片上展示的文字、表情包等都可能包含一些有效信息,在这种情况下,也可以将有效数据转换为文本数据。
每隔一段时间,获取智能问答系统针对每一次业务咨询所产生的会话信息session及其对应的用户评级信息v组成历史会话数据,构建其对应的历史数据集合:slist={s|s=(session,v)}。针对每一会话信息,提取会话特征,建立情感模型,基于建立的情感模型确定情感参数m,其对应的历史数据集合就扩展为:slist={s|s=(session,v,m)},然后对每一历史会话信息session进行信息拆分,拆分出多条第一类文本信息q和第一类文本信息对应的第二类文本信息a,其对应的历史数据集合就扩展为:slist={s|s=(session,q,a,v,m)},提取每一第一类文本信息的语义特征,那么每个历史会话数据session的集合就扩展为:slist={s|s=(session,q,a,w_qlist,v,m)}。
情感参数是基于历史会话数据里文本数据中携带的和情绪有关的关键词生成的,具体的生成方法可以参照图3所示的流程,将在实施例三中详细介绍,这里不再赘述。
以本公开实施例应用于智能问答系统为例,每一条会话信息的评价参数v是用户针对某次业务咨询的评分,情感参数m则是根据用户在本次业务咨询过程中产生的一些与情绪有关的关键词生成的,比如:开心、生气、难过等词语。
S202:基于等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据。
语义识别模型为基于带有标签的历史会话样本数据进行训练得到的,具体实施时,语义识别模型记为f=e1*v+e2*m+b,其中e1、e2、b都为语义识别模型f的参数,预先根据人工标定的几个优质历史会话数据,获得几组已知的(v,m)样本,根据已知的几组样本结合回归方程确定语义识别模型f的参数的参数值。
根据语义识别模型f和每个历史会话数据的评价参数和情感参数确定目标历史会话数据的方式有多种:
其中一种实施方式可以是:根据语义识别模型f和每个历史会话数据的评价参数和情感参数确定每个的历史会话数据的评分;根据每一历史会话数据对应的评分,降序排列若干条历史会话数据;按照各历史会话数据的排列顺序,选取预设数量的历史会话数据为目标历史会话数据,这里的预设数量可以根据所有历史会话数据的总数量按照一定比例去选取,比如按照10%的比例选取,如果历史会话数据有100个,就选排序前10名的10个历史会话数据为目标历史会话数据,如果历史会话数据有200个,就选取排序前20的20个历史会话数据为目标历史会话数据,在上述的实施方式中,如果出现评分相同的两个或者多个历史会话数据,只按照预设数量选取,以历史会话数据有100个按照10%的比例选取为例,当排序第十和第十一位的历史会话数据的评分是一样的,只取前10个历史会话数据作为目标历史会话数据,排序第十一位的历史会话数据不作为目标历史会话数据;
另一种实施方式是:基于评价参数和情感参数,利用语义识别模型确定每一历史会话数据的评分;根据每一历史会话数据对应的评分,降序排列若干条历史会话数据;确定评分不小于预设阈值的历史会话数据为目标历史会话数据,预设阈值为根据各历史会话数据的排列顺序,选取的满足预设比例的最后一条历史会话数据所对应的评分,比如g=f(v,m),g为历史会话数基于语义识别模型f=e1*v+e2*m+b的评分,一共有100条历史会话数据,预设比例为10%,那么应该选取排序第十位的历史会话数据的评分作为预设阈值,假设排序第十位的历史会话数据的评分为g0,提取g>=g0的所有内容都是优质内容,构建优质内容库,也即只要评分不小于预设阈值历史会话数据就为目标历史会话数据,区别于前一种实施方式,如果出现评分相同的两个或者多个历史会话数据,只要评分不小于预设阈值的历史会话数据都被确定为历史会话数据,继续以共有100条历史会话数据,预设比例为10%为例,当排在第九位和第十一位的历史会话数据的评分相同,那么第十一位的历史会话数据也是目标历史会话数据。
S203:在判断出任一历史会话数据为目标历史会话数据的情况下,提取目标历史会话数据中包含的第一类文本信息的第二语义特征。
为了区分于实施例一中的第一语义特征,我们把数据库中的第一类文本信息的语义特征称为第二语义特征,需要说明的是,提取第一类文本信息的语义特征可以在确定目标历史会话数据之前,也可以在确定目标历史会话数据之后,具体可以参照实施例一的步骤S102所述的内容,这里不再赘述。
S204:建立目标历史会话数据中包含的第一类文本信息及其对应的第二类文本信息和第二语义特征之间的对应关系并添加到数据库中。
步骤S201中针对每个历史会话数据session的集合扩展为:slist={s|s=(session,q,a,w_qlist,v,m)};在选取出所有目标历史会话数据后,每一目标历史会话数据都对应于自己的集合slist={s|s=(session,q,a,w_qlist,v,m)},同一目标历史会话数据中的所有第一类文本信息和所有第二类文本信息对应于相同的评价参数和情感参数,而每条第一类文本信息都有对应的第二语义特征和第二类文本信息,具体的区分标记和对应关系可参照步骤S102所述的内容,这里不再赘述。
进一步,本实施例根据多条历史会话数据的等级信息和预先定义的语义识别模型筛选出目标历史会话数据,能把历史会话数据中的优质内容荣提取出来,建立一个优质内容的数据库,实现了信息筛选,方便对数据的进一步调用。
实施例三
为了便于理解,本实施例将结合图3所示的流程说明情感参数的生成方法,本方法可以应用于多个场景,这里不做限定,为了方便说明,此处以应用于智能客服回答用户的问题的场景为例,具体包括以下步骤:
S301:针对历史会话数据包含的任一条第一类文本信息,利用预先训练的情感分类模型确定该条第一类文本信息的情感得分。
情感分类模型,可以用通用的自然处理模型处理,比如bert分类网络,这里不做限定。具体实施时,针对一个历史会话数据,抽取改历史会话数据中N条第一类文本信息,将N条第一类文本信息输入情感分类模型,然后得到N条第一类文本信息的情感得分,以上N是一个整数,为了方便模型的训练,每次都对统一的N条第一类文本信息进行处理,直至处理完该历史会话数据中所有的第一类文本信息,得到每一条第一类文本信息的情感得分。第一类文本信息中会包含一些与情绪有关的关键词,以应用于智能客服回答用户的问题的场景为例,第一类文本信息为用户的问题,用户在问问题时会携带一些情绪词,比如开心、生气、愤怒等词语,比如该用户的聊天记录中一共有10个问题,也就是有10个第一类文本信息,N为2,情感分类模型每次只计算2个问题的情感得分,一共计算五次得到所有问题的情感得分。
S302:确定历史会话数据包含的所有第一类文本信息的情感得分均值为该历史会话数据的情感参数。
根据该历史会话数据中所有第一类文本信息的情感得分确定每一条第一类文本信息的平均情感得分,该平均情感得分就为该历史会话数据的情感参数。以应用于智能客服回答用户的问题的场景为例,假设有5个问题,也即有5个第一类文本信息,它们的情感得分分别为7、10、3、4、6,那么这五个问题的平均情感得分就为:(7+10+3+4+6)/5=6,所以该用户的聊天记录的情感参数就为6。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一发明构思,本公开实施例中还提供了与信息推荐方法对应的信息推荐装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述信息推荐方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例四
参照图4所示,为本公开实施例四提供的一种信息推荐装置的示意图,所述装置包括:提取模块401、查找模块402和获取模块403;其中,
提取模块401,用于在接收到第一类文本信息的情况下,提取所述第一类文本信息的第一语义特征;
查找模块402,用于从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,所述数据库中包含有第一类文本信息、第二类文本信息以及所述第一类文本信息所对应的语义特征之间的对应关系;
获取模块403,用于获取目标语义特征对应的第二类文本信息并返回。
在一种可能的实施方式中,所述装置还包括建立模块和判断模块;以及
所述获取模块,还用于获取若干条历史会话数据,所述历史会话数据中包含第一类文本信息及其对应的第二类文本信息和所述历史会话数据对应的等级信息;
所述判断模块,用于基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,所述语义识别模型为基于带有标签的历史会话样本数据进行训练得到的;
所述提取模块,还用于在所述判断模块判断出任一历史会话数据为目标历史会话数据的情况下,提取所述目标历史会话数据中包含的第一类文本信息的第二语义特征;
所述建立模块,用于建立所述目标历史会话数据中包含的第一类文本信息及其对应的第二类文本信息和第二语义特征之间的对应关系并添加到所述数据库中。
在一种可能的实施方式中,所述等级信息包括情感参数;以及
所述装置还包括生成模块;
所述生成模块,用于针对所述历史会话数据包含的任一条第一类文本信息,利用预先训练的情感分类模型确定该条第一类文本信息的情感得分;确定所述历史会话数据包含的所有第一类文本信息的情感得分均值为该历史会话数据的情感参数。
在一种可能的实施方式中,所述等级信息还包括评价参数;以及
所述判断模块,具体用于基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;按照各历史会话数据的排列顺序,选取预设数量的历史会话数据为目标历史会话数据。
在一种可能的实施方式中,所述判断模块,具体用于基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;
根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;
确定评分不小于预设阈值的历史会话数据为所述目标历史会话数据,所述预设阈值为根据各历史会话数据的排列顺序,选取的满足预设比例的最后一条历史会话数据所对应的评分。
在一种可能的实施方式中,所述历史会话数据包括语音数据和图片数据;以及
所述装置还包括删除模块和转换模块;
所述删除模块,用于在所述判断模块基于所述等级信息,利用预先训练的语义识别模型判断所述历史会话数据是否为目标历史会话数据之前,删除所述图片数据;
所述转换模块,用于在所述判断模块基于所述等级信息,利用预先训练的语义识别模型判断所述历史会话数据是否为目标历史会话数据之前,将所述语音数据转换为文本数据,或者将所述语音数据和所述图片数据转换为文本数据。
在一种可能的实施方式中,所述查找模块,具体用于确定第一语义特征和所述数据库中各个第一类文本信息的语义特征的相似度;确定相关度最大的语义特征为与所述第一语义特征匹配的目标语义特征。
关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明,这里不再详述。
实施例五
本公开实施例还提供了一种计算机设备,如图5所示,为本公开实施例五提供的计算机设备结构示意图,包括:
处理器51和存储器52;所述存储器52存储有处理器51可执行的机器可读指令,处理器51用于执行存储器52中存储的机器可读指令,所述机器可读指令被处理器51执行时,处理器51执行下述步骤:S101:在接收到第一类文本信息的情况下,提取第一类文本信息的第一语义特征;S102:从预先建立的数据库中查找与第一语义特征匹配的目标语义特征;S103:获取目标语义特征对应的第二类文本信息并返回。
上述存储器52包括内存521和外部存储器522;这里的内存521也称内存储器,用于暂时存放处理器51中的运算数据,以及与硬盘等外部存储器522交换的数据,处理器51通过内存521与外部存储器522进行数据交换。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的信息推荐方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
本公开实施例所提供的信息推荐方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的信息推荐方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例还提供一种计算机程序,该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种信息推荐方法,其特征在于,包括:
在接收到第一类文本信息的情况下,提取所述第一类文本信息的第一语义特征;
从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,所述数据库中包含有第一类文本信息、第二类文本信息以及所述第一类文本信息所对应的语义特征之间的对应关系;
获取目标语义特征对应的第二类文本信息并返回。
2.根据权利要求1所述的方法,其特征在于,所述数据库为按照以下方法建立的:
获取若干条历史会话数据,所述历史会话数据中包含第一类文本信息及其对应的第二类文本信息和所述历史会话数据对应的等级信息;
基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,所述语义识别模型为基于带有标签的历史会话样本数据进行训练得到的;
在判断出任一历史会话数据为目标历史会话数据的情况下,提取所述目标历史会话数据中包含的第一类文本信息的第二语义特征;
建立所述目标历史会话数据中包含的第一类文本信息及其对应的第二类文本信息和第二语义特征之间的对应关系并添加到所述数据库中。
3.根据权利要求2所述的方法,其特征在于,所述等级信息包括情感参数;以及
所述情感参数是按照以下方法生成的:
针对所述历史会话数据包含的任一条第一类文本信息,利用预先训练的情感分类模型确定该条第一类文本信息的情感得分;
确定所述历史会话数据包含的所有第一类文本信息的情感得分均值为该历史会话数据的情感参数。
4.根据权利要求3所述的方法,其特征在于,所述等级信息还包括评价参数;以及
基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,具体包括:
基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;
根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;
按照各历史会话数据的排列顺序,选取预设数量的历史会话数据为目标历史会话数据。
5.根据权利要求4所述的方法,其特征在于,基于所述等级信息,利用预先训练的语义识别模型判断每一历史会话数据是否为目标历史会话数据,具体包括:
基于所述评价参数和情感参数,利用所述语义识别模型确定每一历史会话数据的评分;
根据每一历史会话数据对应的评分,降序排列所述若干条历史会话数据;
确定评分不小于预设阈值的历史会话数据为所述目标历史会话数据,所述预设阈值为根据各历史会话数据的排列顺序,选取的满足预设比例的最后一条历史会话数据所对应的评分。
6.根据权利要求2所述的方法,其特征在于,所述历史会话数据包括语音数据和图片数据;以及
在基于所述等级信息,利用预先训练的语义识别模型判断所述历史会话数据是否为目标历史会话数据之前,还包括:
删除所述图片数据,并将所述语音数据转换为文本数据;或者,
将所述语音数据和所述图片数据转换为文本数据。
7.根据权利要求1所述的方法,其特征在于,从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,包括:
确定第一语义特征和所述数据库中各个第一类文本信息的语义特征的相似度;
确定相关度最大的语义特征为与所述第一语义特征匹配的目标语义特征。
8.一种信息推荐装置,其特征在于,包括:
提取模块,用于在接收到第一类文本信息的情况下,提取所述第一类文本信息的第一语义特征;
查找模块,用于从预先建立的数据库中查找与所述第一语义特征匹配的目标语义特征,所述数据库中包含有第一类文本信息、第二类文本信息以及所述第一类文本信息所对应的语义特征之间的对应关系;
获取模块,用于获取目标语义特征对应的第二类文本信息并返回。
9.一种计算机设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当计算机设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一项所述的信息推荐的方法的步骤。
10.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一项所述的信息推荐的方法的步骤。
CN202011033050.1A 2020-09-27 2020-09-27 一种信息推荐方法、装置、计算机设备和存储介质 Pending CN112163075A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011033050.1A CN112163075A (zh) 2020-09-27 2020-09-27 一种信息推荐方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011033050.1A CN112163075A (zh) 2020-09-27 2020-09-27 一种信息推荐方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112163075A true CN112163075A (zh) 2021-01-01

Family

ID=73863101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011033050.1A Pending CN112163075A (zh) 2020-09-27 2020-09-27 一种信息推荐方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112163075A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861861A (zh) * 2023-07-06 2023-10-10 百度(中国)有限公司 文本处理方法及装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202301A (zh) * 2016-07-01 2016-12-07 武汉泰迪智慧科技有限公司 一种基于深度学习的智能应答系统
CN109325132A (zh) * 2018-12-11 2019-02-12 平安科技(深圳)有限公司 专家知识推荐方法、装置、计算机设备及存储介质
CN109949830A (zh) * 2019-03-12 2019-06-28 中国联合网络通信集团有限公司 用户意图识别方法及设备
CN110287294A (zh) * 2018-12-27 2019-09-27 厦门智融合科技有限公司 知识产权概念自动解答方法及系统
CN110427620A (zh) * 2019-07-23 2019-11-08 复旦大学 基于社群系统的服务质量优化管理系统
CN110570879A (zh) * 2019-09-11 2019-12-13 深圳壹账通智能科技有限公司 基于情绪识别的智能会话方法、装置及计算机设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202301A (zh) * 2016-07-01 2016-12-07 武汉泰迪智慧科技有限公司 一种基于深度学习的智能应答系统
CN109325132A (zh) * 2018-12-11 2019-02-12 平安科技(深圳)有限公司 专家知识推荐方法、装置、计算机设备及存储介质
CN110287294A (zh) * 2018-12-27 2019-09-27 厦门智融合科技有限公司 知识产权概念自动解答方法及系统
CN109949830A (zh) * 2019-03-12 2019-06-28 中国联合网络通信集团有限公司 用户意图识别方法及设备
CN110427620A (zh) * 2019-07-23 2019-11-08 复旦大学 基于社群系统的服务质量优化管理系统
CN110570879A (zh) * 2019-09-11 2019-12-13 深圳壹账通智能科技有限公司 基于情绪识别的智能会话方法、装置及计算机设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861861A (zh) * 2023-07-06 2023-10-10 百度(中国)有限公司 文本处理方法及装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN103365833B (zh) 一种基于上下文场景的输入候选词提示方法及系统
CN111625632A (zh) 一种问答对推荐方法、装置、设备及存储介质
CN108038165B (zh) 一种信息搜索方法、搜索装置、终端设备和服务器设备
CN102298587A (zh) 满意度调查方法及系统
CN107784033A (zh) 一种基于会话进行推荐的方法和装置
CN112183078B (zh) 文本摘要确定方法和装置
CN112434501A (zh) 工单智能生成的方法、装置、电子设备及介质
CN111783415B (zh) 模板配置方法以及装置
CN115272540A (zh) 基于虚拟客服形象的处理方法和装置、设备、介质
CN112669113A (zh) 产品的推荐方法和装置、存储介质、电子装置
CN111062211A (zh) 信息提取方法、装置、电子设备及存储介质
CN110209780B (zh) 一种问题模板生成方法、装置、服务器及存储介质
CN112163075A (zh) 一种信息推荐方法、装置、计算机设备和存储介质
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN113362045A (zh) 会议日程的生成方法、装置、电子设备及可读存储介质
CN112966076A (zh) 智能问答问题的生成方法、装置、计算机设备及存储介质
CN116956068A (zh) 基于规则引擎的意图识别方法、装置、电子设备及介质
CN115204123B (zh) 协同编辑文档的分析方法、分析装置以及存储介质
CN110209804B (zh) 目标语料的确定方法和装置、存储介质及电子装置
CN110929014A (zh) 信息处理方法、装置、电子设备及存储介质
CN114048294B (zh) 相似人群扩展模型训练方法、相似人群扩展方法和装置
CN113010664B (zh) 一种数据处理方法、装置及计算机设备
CN110633410A (zh) 信息处理方法及装置、存储介质、电子装置
CN115033675A (zh) 会话方法、会话装置、电子设备及存储介质
CN113468306A (zh) 语音对话方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination