CN113239276A - 一种基于会话信息确定推荐物料的方法和装置 - Google Patents
一种基于会话信息确定推荐物料的方法和装置 Download PDFInfo
- Publication number
- CN113239276A CN113239276A CN202110599819.4A CN202110599819A CN113239276A CN 113239276 A CN113239276 A CN 113239276A CN 202110599819 A CN202110599819 A CN 202110599819A CN 113239276 A CN113239276 A CN 113239276A
- Authority
- CN
- China
- Prior art keywords
- information
- similarity
- session information
- entity
- schemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000463 material Substances 0.000 title claims abstract description 166
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 230000006854 communication Effects 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于会话信息确定推荐物料的方法和装置,属于信息推送技术领域,所述方法包括:根据多种信息提取方案从待选会话信息中提取目标会话信息,其中,所述待选会话信息为当前正在进行的对话信息,所述目标会话信息中包含有至少一个实体,所述实体用于执行与推荐物料的匹配,所述多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同;根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度,其中,所述多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度;从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。本申请提高物料推荐的灵活性。
Description
技术领域
本申请涉及信息推送技术领域,尤其涉及一种基于会话信息确定推荐物料的方法和装置。
背景技术
推荐系统能在没有明确用户意图的情况下,帮助用户发现有价值的信息。在应用需求的推动下,个性化推荐系统成了学术界和工业界热门的研究方向,基于会话的推荐系统(Session-based Recommender system)是个性化推荐系统的一个重要组成部分,基于会话的推荐系统可以根据用户之间的会话为用户推荐匹配的物料,其中,该物料为用户沉淀的文件、素材或常用语等。示例性的,业务人员与客户进行线上沟通时,推荐系统可以根据业务人员与客户之间的会话信息为客户推荐相关的常用语、相关文件等。
传统推荐系统主要是对用户-评分矩阵中的缺省值进行填充预测,随后进行协同过滤计算。这种方式适合用户具有长期的偏好,然而用户的兴趣和意图可能是不断变化的,若还采用传统推荐系统,则无法及时更新推荐策略,导致推荐策略与用户喜好不匹配。
发明内容
本申请实施例的目的在于提供一种基于会话信息确定推荐物料的方法和装置,以解决推荐策略与用户喜好不匹配的问题。具体技术方案如下:
第一方面,提供了一种基于会话信息确定推荐物料的方法,所述方法包括:
根据多种信息提取方案从待选会话信息中提取目标会话信息,其中,所述待选会话信息为当前正在进行的对话信息,所述目标会话信息中包含有至少一个实体,所述实体用于执行与推荐物料的匹配,所述多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同;
根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度,其中,所述多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度;
从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
可选地,所述根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度包括:
确定所述目标会话信息和所述待选物料信息之间的语义相似度、杰卡德相似度系数以及编辑距离,其中,所述语义相似度、所述杰卡德相似度系数以及所述编辑距离采用不同的特征维度确定相似度;
根据所述语义相似度、所述杰卡德相似度系数以及所述编辑距离,确定所述目标会话信息和待选物料信息之间的相似度。
可选地,所述根据所述语义相似度、所述杰卡德相似度系数以及所述编辑距离,确定所述目标会话信息和待选物料信息之间的相似度包括:
将第一预设数值与所述杰卡德相似度系数之间的差值作为目标相似度系数;
选取所述语义相似度、所述目标相似度系数以及所述编辑距离之间的最小值;
将第二预设数值与所述最小值之间的差值作为所述目标会话信息和所述待选物料信息之间的相似度。
可选地,所述根据多种信息提取方案从待选会话信息中提取目标会话信息包括:
通过字典确定所述待选会话信息中的词汇对应的第一实体,其中,所述字典中保存有实体和预设词汇的对应关系,所述预设词汇为缩略词汇、指代词汇或口头语;
通过正则表达式从所述待选会话信息中选取第二实体,其中,所述第二实体包含字母、符号以及数字中的至少一种字符;
通过命名实体识别方式从所述待选会话信息中选取第三实体,其中,服务器中预存有所述第三实体的实体类型。
可选地,根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度之前,所述方法还包括:
根据备选物料信息的历史选用频次,将所述备选物料信息按照预设顺序进行排序;
选取排序位置位于预设位置之前的待选物料信息。
可选地,根据多种信息提取方案从待选会话信息中提取目标会话信息之前,所述方法还包括:
对会话记录信息进行分词,得到备选会话信息;
过滤掉所述备选会话信息中的不当信息,得到所述待选会话记录信息。
可选地,从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息包括:
将相似度按照从大到小的顺序进行排序;
选取排序位置位于预设位置之前的目标相似度,其中,所述预设位置的数值与所需的推荐物料的数量相同;
将所述目标相似度对应的待选物料信息作为推荐物料信息。
第二方面,提供了一种基于会话信息确定推荐物料的装置,所述装置包括:
提取模块,用于根据多种信息提取方案从待选会话信息中提取目标会话信息,其中,所述待选会话信息为当前正在进行的对话信息,所述目标会话信息中包含有至少一个实体,所述实体用于执行与推荐物料的匹配,所述多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同;
确定模块,用于根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度,其中,所述多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度;
作为模块,用于从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的基于会话信息确定推荐物料的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的基于会话信息确定推荐物料方法步骤。
本申请实施例有益效果:
本申请可以应用于推荐技术领域用于个性化推荐,提供了一种基于会话信息确定推荐物料的方法,服务器根据多种信息提取方案从待选会话信息中提取目标会话信息,然后根据多种相似度方案确定目标会话信息和待选物料信息之间的相似度,最后从待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。本申请采用当前正在进行的对话信息进行物料推荐,对话信息反映了用户的喜好,即使用户改变喜好,也可以及时更改物料推荐,使推荐的物料满足用户当前喜好,提高用户体验,提高物料推荐的灵活性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于会话信息确定推荐物料的方法流程图;
图2为本申请实施例提供的一种基于会话信息确定推荐物料的方法流程图;
图3为本申请实施例提供的一种基于会话信息确定推荐物料装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种基于会话信息确定推荐物料的方法的实施例。
本申请实施例中的一种基于会话信息确定推荐物料的方法可以由服务器。
本申请实施例提供了一种基于会话信息确定推荐物料的方法,可以应用于服务器,用于根据正在进行的会话信息进行物料推荐。
下面将结合具体实施方式,对本申请实施例提供的一种基于会话信息确定推荐物料的方法进行详细的说明,如图1所示,具体步骤如下:
步骤101:根据多种信息提取方案从待选会话信息中提取目标会话信息。
其中,待选会话信息为当前正在进行的对话信息,目标会话信息中包含有至少一个实体,实体用于执行与推荐物料的匹配,多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同。
在本申请实施例中,业务人员和客户在沟通过程中会实时产生会话信息,服务器获取当前正在进行的待选会话信息。待选会话信息中包含多种类型的实体,示例性的,实体类型包括缩略词、口头语、邮件、手机号、人名和地名等,不同类型的实体的信息提取方案是不同的,服务器根据多种信息提取方案从待选会话信息中提取目标会话信息,任意两种信息提取方案提取的会话信息的类型不同。服务器得到目标会话信息,目标会话信息可以为一句话,也可以为一段话,目标会话信息中包含至少一个实体,该实体可以用于执行与推荐物料的匹配。
示例性地,目标会话信息为“你们公司的电话号码是多少”,实体为“电话号码”,匹配的推荐物料为电话号码。目标会话信息为“xx产品的产地是哪里”,实体为“xx产品”“产地”,匹配的推荐物料为“yy产地”。
步骤102:根据多种相似度方案确定目标会话信息和待选物料信息之间的相似度。
其中,多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度。
在本申请实施例中,服务器中预先存储有多个待选物料信息,有些待选物料信息与实体无关联或关联性较小,有些待选物料信息与实体关联性较大,服务器需要从多个待选物料信息中选取出与目标会话信息中的实体相关联且关联性大的物料信息,因此,服务器需要确定目标会话信息和待选物料信息之间的相似度。本申请采用多种相似度方案确定相似度,其中,任意两种相似度方案采用不同的特征维度计算相似度。
步骤103:从待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
可选地,服务器选取推荐物料信息的过程为:服务器计算每个待选物料信息的相似度后,将相似度按照从大到小的顺序进行排序,然后选取排序位置位于预设位置之前的目标相似度,其中,预设位置的数值与所需的推荐物料的数量相同,最后将目标相似度对应的待选物料信息作为推荐物料信息。
示例性地,服务器确定需要呈现10条推荐物料信息,则选取排序位置在前10名的目标相似度,将该10个目标相似度对应的物料信息作为推荐物料信息。
在本申请中,服务器采用多种信息提取方案提取目标会话信息,可以使提取出的目标会话信息中的实体类型更加丰富和完善,这样使得推荐物料也更加贴合实体,选取相似度高于预设阈值的物料信息作为推荐物料信息,提高了推荐物料信息和实体之间的相似度,使得推荐物料信息更加贴合实体,满足用户需求。另外,采用当前正在进行的对话信息进行物料推荐,对话信息反映了用户的喜好,即使用户改变喜好,也可以及时更改物料推荐,使推荐的物料满足用户当前喜好,提高用户体验,提高物料推荐的灵活性。
作为一种可选的实施方式,根据多种相似度方案确定目标会话信息和待选物料信息之间的相似度包括:确定目标会话信息和待选物料信息之间的语义相似度、杰卡德相似度系数以及编辑距离,其中,语义相似度、杰卡德相似度系数以及编辑距离采用不同的特征维度确定相似度;根据语义相似度、杰卡德相似度系数以及编辑距离,确定目标会话信息和待选物料信息之间的相似度。
在本申请实施例中,多种相似度方案包括语义相似度、杰卡德相似度系数以及编辑距离,语义相似度、杰卡德相似度系数以及编辑距离采用不同的特征维度确定相似度。各相似度方案如下:
1.语义相似度采用两个句子的文本向量化的相似度,文本向量化是将文本表示成一系列能够表达文本语义的向量,是文本表示的一种重要方式。目前对文本向量化大部分的研究都是通过词向量化实现的。
2.杰卡德相似度系数主要用于计算符号度量或布尔值度量的样本间的相似度,是两个集合A、B的交集元素在A、B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示:
3.编辑距离,也叫莱文斯坦距离(Levenshtein),是针对二个字符串(例如英文字)的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。
服务器先确定目标会话信息和待选物料信息之间的语义相似度、杰卡德相似度系数以及编辑距离,然后根据语义相似度、杰卡德相似度系数以及编辑距离,确定目标会话信息和待选物料信息之间的相似度。
具体的,确定目标会话信息和待选物料信息之间的相似度的过程为:服务器将第一预设数值与杰卡德相似度系数之间的差值作为目标相似度系数,然后选取语义相似度、目标相似度系数和编辑距离之间的最小值,最后将第二预设数值与最小值之间的差值作为目标会话信息和待选物料信息之间的相似度。
确定目标会话信息和待选物料信息之间的相似度的计算公式为:
Socre=1-min(semanticSIm(A,B),1-jacSIm(A,B),levSIm(A,B)),
其中,Socre为目标会话信息和待选物料信息之间的相似度,semanticSIm(A,B)为语义相似度,jacSIm(A,B)为杰卡德相似度系数,1-jacSIm(A,B)为目标相似度系数,levSIm(A,B)为编辑距离。
在本申请中,服务器分别根据语义相似度、杰卡德相似度系数和编辑距离计算相似度,即分别从文本向量、符号度量或布尔值度量、字符串三个特征维度确定相似度,提高了相似度确定的精确性。
作为一种可选的实施方式,根据多种信息提取方案从待选会话信息中提取目标会话信息包括:通过字典确定待选会话信息中的词汇对应的第一实体,其中,字典中保存有实体和预设词汇的对应关系,预设词汇为缩略词汇、指代词汇或口头语;通过正则表达式从待选会话信息中选取第二实体,其中,第二实体包含字母、符号以及数字中的至少一种;通过命名实体识别方式(NER,Named Entity Recognition)从待选会话信息中选取第三实体,其中,服务器中预存有第三实体的实体类型。
在本申请实施例中,待选会话信息中包括三种类型实体中的至少一种,第一种实体为预设词汇,例如缩略词汇、指代词汇以及口头语等,第二种实体为包含字母、符号和数字中至少一种字符的实体,第三种实体为待选会话信息中除第一种实体和第二种实体之外的实体。
服务器可以获取字典,字典可以预先存储在服务器中,也可以存储于其他存储设备中,字典中保存有实体和预设词汇的对应关系,预设词汇包括缩略词汇、指代词汇以及口头语等,服务器可以识别待选会话信息中的预设词汇,并在字典中查找预设词汇对应的第一实体;也可以根据待选会话信息中的每个词汇在字典中查找对应的实体,若能够查找到,则将查找到的实体作为第一实体。
服务器根据预设规则抽取方案,通过规则表达式从待选会话信息中选取第二实体,其中,第二实体包含字母、符号以及数字中的至少一种字符,示例性的,第二实体可以为手机号、邮箱、座机号等。
服务器通过命名实体识别方式从待选会话信息中选取第三实体,命名实体识别是从非结构化文本中找出命名实体,并标注其在文本中的所在位置以及类型。具体的服务器可以结合实体识别和机器学习的方法选取第三实体。服务器采用FACILE系统从待选会话信息中选取第三实体并确定第三实体在待选会话信息中的位置,然后将第三实体输入类型识别模型,得到类型识别模型输出的第三实体的类型。
服务器从待选会话信息中提取第一实体、第二实体以及第三实体后,将第一实体、第二实体以及第三实体作为目标会话信息,目标会话信息包括第一实体、第二实体以及第三实体中的至少一种。
作为一种可选的实施方式,根据多种相似度方案确定目标会话信息和待选物料信息之间的相似度之前,方法还包括:根据备选物料信息的历史选用频次,将备选物料信息按照预设顺序进行排序;选取排序位置位于预设位置之前的待选物料信息。
在本申请实施例中,备选物料信息包括多种,如果计算目标会话信息和所有备选物料信息的相似度,会导致相似度计算时长过长,为了提高相似度确定效率,可以从备选物料信息中选取出待选物料信息,然后从待选物料信息中选取推荐物料信息,因此,服务器可以将备选物料信息的历史选用频次按照由大到小的顺序进行排序,然后选取排序位置位于预设之前的物料信息作为待选物料信息。历史选用频次高的备选物料信息表示其在历史记录中被推荐的次数较多,该备选物料信息比较重要,选取该备选物料信息作为待选物料信息,其与目标会话信息的相似度较高。
作为一种可选的实施方式,根据多种信息提取方案从待选会话信息中提取目标会话信息之前,方法还包括:对会话记录信息进行分词,得到备选会话信息;过滤掉备选会话信息中的不当信息,得到待选会话记录信息。
业务人员和客户在沟通过程中会实时产生会话记录信息,服务器获取会话记录信息。服务器获取待选会话信息的方式可以从即时通讯工具中获取,也可以从实时存储即时通讯工具的会话信息的存储器中得到。服务器对会话记录信息进行中文分词,得到备选会话信息,备选会话信息中会存在一些非必要词汇、语气词、敏感词汇等不当信息,服务器过滤掉备选会话信息中的不当信息,得到待选会话记录信息。其中,中文分词(Chinese WordSegmentation)指的是将一个汉字序列切分成一个个单独的词,其中分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
可选的,本申请实施例还提供了一种基于会话信息确定推荐物料的处理流程图,如图2所示,具体步骤如下。
步骤201:对会话记录信息进行分词,得到备选会话信息。
步骤202:过滤掉备选会话信息中的不当信息,得到待选会话记录信息。
步骤203:根据字典、正则表达式以及命名实体识别方式从待选会话信息中提取目标会话信息。
步骤204:根据语义相似度、杰卡德相似度系数以及编辑距离确定目标会话信息和待选物料信息之间的相似度。
步骤205:从待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
基于相同的技术构思,本申请实施例还提供了一种基于会话信息确定推荐物料的装置,如图3所示,该装置包括:
提取模块301,用于根据多种信息提取方案从待选会话信息中提取目标会话信息,其中,待选会话信息为当前正在进行的对话信息,目标会话信息中包含有至少一个实体,实体用于执行与推荐物料的匹配,多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同;
确定模块302,用于根据多种相似度方案确定目标会话信息和待选物料信息之间的相似度,其中,多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度;
作为模块303,用于从待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
可选地,确定模块302包括:
第一确定单元,用于确定目标会话信息和待选物料信息之间的语义相似度、杰卡德相似度系数以及编辑距离,其中,语义相似度、杰卡德相似度系数以及编辑距离采用不同的特征维度确定相似度;
第二确定单元,用于根据语义相似度、杰卡德相似度系数以及编辑距离,确定目标会话信息和待选物料信息之间的相似度。
可选地,第二确定单元包括:
第一作为子单元,用于将第一预设数值与杰卡德相似度系数之间的差值作为目标相似度系数;
选取子单元,用于选取语义相似度、目标相似度系数以及编辑距离之间的最小值;
第二作为子单元,用于将第二预设数值与最小值之间的差值作为目标会话信息和待选物料信息之间的相似度。
可选地,提取模块301包括:
第三确定单元,用于通过字典确定待选会话信息中的词汇对应的第一实体,其中,字典中保存有实体和预设词汇的对应关系,预设词汇为缩略词汇、指代词汇或口头语;
第一选取单元,用于通过正则表达式从待选会话信息中选取第二实体,其中,第二实体包含字母、符号以及数字中的至少一种字符;
第二选取单元,用于通过命名实体识别方式从待选会话信息中选取第三实体,其中,服务器中预存有第三实体的实体类型。
可选地,该装置还包括:
排序模块,用于根据备选物料信息的历史选用频次,将备选物料信息按照预设顺序进行排序;
选取模块,用于选取排序位置位于预设位置之前的待选物料信息。
可选地,该装置还包括:
分词模块,用于对会话记录信息进行分词,得到备选会话信息;
过滤模块,用于过滤掉备选会话信息中的不当信息,得到待选会话记录信息。
可选地,作为模块303包括:
排序单元,用于将相似度按照从大到小的顺序进行排序;
第三选取单元,用于选取排序位置位于预设位置之前的目标相似度,其中,预设位置的数值与所需的推荐物料的数量相同;
作为单元,用于将目标相似度对应的待选物料信息作为推荐物料信息。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器403、处理器401、通信接口402及通信总线404,存储器403中存储有可在处理器401上运行的计算机程序,存储器403、处理器401通过通信接口402和通信总线404进行通信,处理器401执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行上述方法的程序代码:
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种基于会话信息确定推荐物料的方法,其特征在于,所述方法包括:
根据多种信息提取方案从待选会话信息中提取目标会话信息,其中,所述待选会话信息为当前正在进行的对话信息,所述目标会话信息中包含有至少一个实体,所述实体用于执行与推荐物料的匹配,所述多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同;
根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度,其中,所述多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度;
从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
2.根据权利要求1所述的方法,其特征在于,所述根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度包括:
确定所述目标会话信息和所述待选物料信息之间的语义相似度、杰卡德相似度系数以及编辑距离,其中,所述语义相似度、所述杰卡德相似度系数以及所述编辑距离采用不同的特征维度确定相似度;
根据所述语义相似度、所述杰卡德相似度系数以及所述编辑距离,确定所述目标会话信息和待选物料信息之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述语义相似度、所述杰卡德相似度系数以及所述编辑距离,确定所述目标会话信息和待选物料信息之间的相似度包括:
将第一预设数值与所述杰卡德相似度系数之间的差值作为目标相似度系数;
选取所述语义相似度、所述目标相似度系数以及所述编辑距离之间的最小值;
将第二预设数值与所述最小值之间的差值作为所述目标会话信息和所述待选物料信息之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述根据多种信息提取方案从待选会话信息中提取目标会话信息包括:
通过字典确定所述待选会话信息中的词汇对应的第一实体,其中,所述字典中保存有实体和预设词汇的对应关系,所述预设词汇为缩略词汇、指代词汇或口头语;
通过正则表达式从所述待选会话信息中选取第二实体,其中,所述第二实体包含字母、符号以及数字中的至少一种字符;
通过命名实体识别方式从所述待选会话信息中选取第三实体,其中,服务器中预存有所述第三实体的实体类型。
5.根据权利要求1所述的方法,其特征在于,根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度之前,所述方法还包括:
根据备选物料信息的历史选用频次,将所述备选物料信息按照预设顺序进行排序;
选取排序位置位于预设位置之前的待选物料信息。
6.根据权利要求1所述的方法,其特征在于,根据多种信息提取方案从待选会话信息中提取目标会话信息之前,所述方法还包括:
对会话记录信息进行分词,得到备选会话信息;
过滤掉所述备选会话信息中的不当信息,得到所述待选会话记录信息。
7.根据权利要求1所述的方法,其特征在于,从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息包括:
将相似度按照从大到小的顺序进行排序;
选取排序位置位于预设位置之前的目标相似度,其中,所述预设位置的数值与所需的推荐物料的数量相同;
将所述目标相似度对应的待选物料信息作为推荐物料信息。
8.一种基于会话信息确定推荐物料的装置,其特征在于,所述装置包括:
提取模块,用于根据多种信息提取方案从待选会话信息中提取目标会话信息,其中,所述待选会话信息为当前正在进行的对话信息,所述目标会话信息中包含有至少一个实体,所述实体用于执行与推荐物料的匹配,所述多种信息提取方案中任意两种信息提取方案提取的会话信息的类型不同;
确定模块,用于根据多种相似度方案确定所述目标会话信息和待选物料信息之间的相似度,其中,所述多种相似度方案中任意两种相似度方案采用不同的特征维度计算相似度;
作为模块,用于从所述待选物料信息中选取相似度高于预设阈值的物料信息作为推荐物料信息。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599819.4A CN113239276B (zh) | 2021-05-31 | 2021-05-31 | 一种基于会话信息确定推荐物料的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110599819.4A CN113239276B (zh) | 2021-05-31 | 2021-05-31 | 一种基于会话信息确定推荐物料的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239276A true CN113239276A (zh) | 2021-08-10 |
CN113239276B CN113239276B (zh) | 2024-07-05 |
Family
ID=77136061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110599819.4A Active CN113239276B (zh) | 2021-05-31 | 2021-05-31 | 一种基于会话信息确定推荐物料的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239276B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653671A (zh) * | 2015-12-29 | 2016-06-08 | 畅捷通信息技术股份有限公司 | 相似信息推荐方法及系统 |
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN106503224A (zh) * | 2016-11-04 | 2017-03-15 | 维沃移动通信有限公司 | 一种根据关键词推荐应用的方法及装置 |
CN110008408A (zh) * | 2019-04-12 | 2019-07-12 | 山东大学 | 一种会话推荐方法、系统、设备及介质 |
CN110909137A (zh) * | 2019-10-12 | 2020-03-24 | 平安科技(深圳)有限公司 | 基于人机交互的信息推送方法、装置和计算机设备 |
CN111400591A (zh) * | 2020-03-11 | 2020-07-10 | 腾讯科技(北京)有限公司 | 资讯信息推荐方法、装置、电子设备及存储介质 |
CN111966805A (zh) * | 2020-08-13 | 2020-11-20 | 贝壳技术有限公司 | 用于辅助实现会话的方法、装置、介质以及电子设备 |
CN112363903A (zh) * | 2020-11-30 | 2021-02-12 | 网银在线(北京)科技有限公司 | 故障报告生成方法、装置、电子设备和计算机可读介质 |
-
2021
- 2021-05-31 CN CN202110599819.4A patent/CN113239276B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653671A (zh) * | 2015-12-29 | 2016-06-08 | 畅捷通信息技术股份有限公司 | 相似信息推荐方法及系统 |
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN106503224A (zh) * | 2016-11-04 | 2017-03-15 | 维沃移动通信有限公司 | 一种根据关键词推荐应用的方法及装置 |
CN110008408A (zh) * | 2019-04-12 | 2019-07-12 | 山东大学 | 一种会话推荐方法、系统、设备及介质 |
CN110909137A (zh) * | 2019-10-12 | 2020-03-24 | 平安科技(深圳)有限公司 | 基于人机交互的信息推送方法、装置和计算机设备 |
CN111400591A (zh) * | 2020-03-11 | 2020-07-10 | 腾讯科技(北京)有限公司 | 资讯信息推荐方法、装置、电子设备及存储介质 |
CN111966805A (zh) * | 2020-08-13 | 2020-11-20 | 贝壳技术有限公司 | 用于辅助实现会话的方法、装置、介质以及电子设备 |
CN112363903A (zh) * | 2020-11-30 | 2021-02-12 | 网银在线(北京)科技有限公司 | 故障报告生成方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113239276B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN117688163B (zh) | 基于指令微调和检索增强生成的在线智能问答方法及装置 | |
CN106407236B (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN110909549B (zh) | 对古汉语进行断句的方法、装置以及存储介质 | |
CN105956053B (zh) | 一种基于网络信息的搜索方法及装置 | |
CN105205699A (zh) | 基于酒店点评的用户标签和酒店标签匹配方法及装置 | |
WO2018176913A1 (zh) | 搜索方法、装置及非临时性计算机可读存储介质 | |
CN102279890A (zh) | 基于微博的情感词提取收集方法 | |
CN109522397B (zh) | 信息处理方法及装置 | |
CN104951435A (zh) | 聊天过程中智能显示关键词的方法及装置 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN106569996B (zh) | 一种面向中文微博的情感倾向分析方法 | |
CN108536676B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110569495A (zh) | 一种基于用户评论的情感倾向分类方法、装置及存储介质 | |
CN110110143A (zh) | 一种视频分类方法及装置 | |
CN107679122B (zh) | 一种模糊搜索方法及终端 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN110969005A (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
Putra et al. | Document Classification using Naïve Bayes for Indonesian Translation of the Quran | |
CN111782789A (zh) | 智能问答方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |