CN110309293A - 文本推荐方法和装置 - Google Patents

文本推荐方法和装置 Download PDF

Info

Publication number
CN110309293A
CN110309293A CN201810149129.7A CN201810149129A CN110309293A CN 110309293 A CN110309293 A CN 110309293A CN 201810149129 A CN201810149129 A CN 201810149129A CN 110309293 A CN110309293 A CN 110309293A
Authority
CN
China
Prior art keywords
text
history
categories
current
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810149129.7A
Other languages
English (en)
Inventor
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201810149129.7A priority Critical patent/CN110309293A/zh
Publication of CN110309293A publication Critical patent/CN110309293A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本推荐方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。该实施方式能够从多个历史文本中自动准确地提取热点文本向用户推荐,从而使用户咨询时不需进行手动输入。

Description

文本推荐方法和装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本推荐方法和装置。
背景技术
在实际生活中,用户往往会在售前或售后对某种物品进行咨询,咨询的问题由用户自行输入。如果可以从物品的历史咨询问题中确定该物品的一个或多个热点问题提供于用户,则可减少用户的手工输入,提升其体验。在现有技术中,一般利用客服人员的工作经验来总结上述热点问题。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于不同的客服人员的观察能力与认识水平存在的差异性以及人工总结无法避免的主观性,使得现有技术中总结到的热点问题存在偏差。
发明内容
有鉴于此,本发明实施例提供一种文本推荐方法和装置,能够从多个历史文本中自动准确地提取热点文本向用户推荐,从而使用户在咨询时不需进行手动输入。
为实现上述目的,根据本发明的一个方面,提供了一种文本推荐方法。
本发明实施例的文本推荐方法包括步骤:获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
可选地,所述多个历史文本中的每一历史文本均对应于一生成时间;以及,所述根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别,包括步骤:S201:由所述多个历史文本组成初始的文本集合;S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与所述基础文本的相似度符合预设条件的历史文本确定为所述基础文本的相似文本,将所述基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除;S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
可选地,所述预设条件包括:相似度不小于预设的相似度阈值。
可选地,所述将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组,具体包括:S301:将所述至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将所述类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列;S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为所述第一个文本类别的同量类别,将所述第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除;其中,当前的待分组类别序列中每一文本类别的邻接比为:该文本类别与其在前文本类别包含的历史文本数量的比值;S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。
可选地,所述方法进一步包括:在所述获取多个历史文本之后,利用预先建立的语言模型检测所述多个历史文本中的噪声数据,将检测到的噪声数据去除。
可选地,所述方法进一步包括:对于去除噪声数据的多个历史文本中的每一历史文本,确定其核心词,并将每一核心词的词向量的和作为该历史文本的文本向量;其中,所述词向量是利用词向量计算工具预先获得的;以及,任意两个历史文本的相似度为利用二者文本向量确定的余弦相似度。
可选地,所述多个历史文本为:针对同一物品的历史咨询问题文本。
为实现上述目的,根据本发明的另一方面,提供了一种文本推荐装置。
本发明实施例的文本推荐装置可包括:聚类模型,用于获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;推荐模块,用于将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
可选地,所述多个历史文本中的每一历史文本均对应于一生成时间;以及,所述聚类模块可进一步用于执行以下步骤:S201:由所述多个历史文本组成初始的文本集合;S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与所述基础文本的相似度符合预设条件的历史文本确定为所述基础文本的相似文本,将所述基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除;S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
可选地,所述预设条件包括:相似度不小于预设的相似度阈值。
可选地,所述推荐模块可进一步用于执行以下步骤:S301:将所述至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将所述类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列;S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为所述第一个文本类别的同量类别,将所述第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除;其中,当前的待分组类别序列中每一文本类别的邻接比为:该文本类别与其在前文本类别包含的历史文本数量的比值;S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。
可选地,所述装置可进一步包括:降噪模块,用于在所述获取多个历史文本之后,利用预先建立的语言模型检测所述多个历史文本中的噪声数据,将检测到的噪声数据去除。
可选地,所述装置可进一步包括:文本向量计算模块,用于对于去除噪声数据的多个历史文本中的每一历史文本,确定其核心词,并将每一核心词的词向量的和作为该历史文本的文本向量;其中,所述词向量是利用词向量计算工具预先获得的;以及,任意两个历史文本的相似度为利用二者文本向量确定的余弦相似度。
可选地,所述多个历史文本为:针对同一物品的历史咨询问题文本。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的文本推荐方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的文本推荐方法。
根据本发明的技术方案,上述发明中的一个实施例具有如下优点或有益效果:通过从大量的历史文本中自动统计反映当前咨询热点的待推荐文本向用户推荐,减少了用户的手动输入,提升了用户体验,同时也减轻了客服人员工作量;在确定待推荐文本时,首先根据历史文本间的相似度将相似性较高的历史文本归入同一文本类别,之后在包含较多历史文本数量的文本类别中选取包含历史文本数量相近的文本类别构成一个文本分组,将每一文本分组的标准文本作为待推荐文本,通过以上处理使得向用户推荐的多个待推荐文本具有以下三个特点:1.不是相似文本或重复文本;2.每一待推荐文本均为历史文本中代表性较强的热点文本;3.可涵盖较多的文本类别;从而提高文本推荐的准确性与多样性,进一步提升用户体验。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的文本推荐方法的主要步骤示意图;
图2是根据本发明实施例的文本推荐方法的文本聚类示意图;
图3是根据本发明实施例的文本推荐方法的文本类别分组示意图;
图4是根据本发明实施例的文本推荐装置的主要组成部分示意图;
图5是根据本发明实施例可以应用于其中的示例性系统架构图;
图6是用来实现本发明实施例的文本推荐方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例的技术方案通过从大量的历史文本中自动统计待推荐文本向用户推荐,减少了用户的手动输入,提升了用户体验,同时也减轻了客服人员工作量;在确定待推荐文本时,首先根据历史文本间的相似度将相似性较高的历史文本归入同一文本类别,之后在包含较多历史文本数量的文本类别中选取包含历史文本数量相近的文本类别构成一个文本分组,将每一文本分组的标准文本作为待推荐文本,通过以上处理使得向用户推荐的多个待推荐文本具有以下三个特点:1.不是相似文本或重复文本;2.每一待推荐文本均为历史文本中代表性较强的热点文本;3.可涵盖较多的文本类别;从而提高文本推荐的准确性与多样性,进一步提升用户体验。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例的文本推荐方法的主要步骤示意图。
如图1所示,本发明实施例的文本推荐方法可执行如下步骤:
步骤S101:获取多个历史文本,根据历史文本之间的相似度将多个历史文本归入至少一个文本类别。
在本发明实施例中,历史文本可以是针对同一物品的历史咨询问题文本。实际应用中,可利用某一物品最近三个月或半年的用户咨询问题作为上述多个历史文本。一般地,每一物品可以利用其库存量单位SKU(Stock Keeping Unit)编码作为标识。
可以理解的是,在上述多个历史文本中,以较大概率存在重复文本,所谓重复文本可以是文本中各词语及其顺序完全一致的多个历史文本,也可以是符合预设规则的多个历史文本。例如,预设规则可以是:若多个历史文本中否定词位置相同、其余词语的相同比例大于90%,则判定上述多个历史文本为重复文本。在由历史文本组成的文本集合中,若某个历史文本对应于n(n为自然数)个重复文本,则该历史文本的重复次数为n+1。
具体应用中,本步骤中获取的多个历史文本中的每一历史文本均与一生成时间对应,历史文本的生成时间指的是用户提出相应咨询问题时对应的时间点。
在本步骤中,获取多个历史文本之后,可执行如下步骤进行前期处理:
1.数据清洗:利用预先建立的算法将多个历史文本中的无意义文本去除。无意义文本例如:“在吗?”“你好吗?”等。
2.数据降噪:通过预先建立的语言模型检测历史文本中的噪声数据,将检测到的噪声数据去除。其中,噪声数据多是用户随意输入的价值较低的咨询问题文本,语言模型是将大量的人工标注的历史文本数据输入文本分类模型进行训练得到的,文本输入模型可以利用贝叶斯算法、随机森林算法、逻辑回归算法等建立。
3.为了减轻后续处理的运算量,可从数据清洗、数据降噪之后的历史文本中选取生成时间较晚(即较新)的一定数量的历史文本进行后续处理。例如:从经过数据清洗、数据降噪之后的历史文本中选取最新的一万个历史文本用于后续处理。
在本步骤中,完成历史文本的前期处理后,可将所有的历史文本归入至少一个文本类别实现文本聚类。图2是根据本发明实施例的文本推荐方法的文本聚类示意图,如图2所示,文本聚类可根据以下步骤实现:
步骤S201:由多个历史文本组成初始的文本集合。其中,上述多个历史文本是经过上述前期处理的文本。
步骤S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与基础文本的相似度符合预设条件的历史文本确定为基础文本的相似文本,将基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除。
其中,在执行步骤S202之前,当前的文本集合即是初始的文本集合,由于文本集合中的历史文本的内容和数量会不断变化,因此“当前的文本集合”可随当前时间的变化相应变化。此外,在利用历史文本进行文本推荐时,最新的历史文本应对推荐结果具有最大的贡献,因此需将当前的文本集合中生成时间最晚(即最新)的历史文本作为基础文本,在其基础上构建文本集合。
作为一个优选方案,本步骤中的相似度可以是通过两个历史文本的文本向量计算的余弦相似度,即:对于任意两个历史文本,其相似度可为二者文本向量的内积分别除以每一文本向量的模所得到的商。可以理解的是,上述相似度也可基于对两个文本向量进行其它可行的运算而得到,例如基于两个文本向量的欧式距离计算相似度,本发明对此不作限制。具体应用中,上述预设条件可根据应用环境具体设置,例如可将其设置为:相似度不小于预设的相似度阈值0.8。
需要说明的是,每一历史文本的文本向量通过以下方式获得:预先将距今较长时间范围(如一年)的所有历史文本输入词向量计算工具(例如word2vec,word2vec是一种可在海量数据集进行高效训练从而计算词向量word embedding的工具),得到其中每一词语的词向量。在计算某历史文本的文本向量时,依次对该历史文本进行分词、停用词去除(用于将标点符号、虚词等去除)、同义词替换(用于将剩余的词语根据预设策略替换为预先存储的相同含义的标准词语,如将元旦替换为新年)、核心词提取处理(用于将剩余词语中的名词、动词等提取),最后将每一核心词的词向量的和作为该历史文本的文本向量。
步骤S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
在本步骤中,若判断当前的文本集合为空,则说明每一历史文本均完成聚类;否则需要重复执行聚类步骤,直至将每一个待聚类的历史文本归入文本类别中。
通过上述步骤,可将历史文本归入至少一个文本类别,每一文本类别包含至少一个历史文本。此外,在每一文本类别中,重复次数最大的历史文本为该文本类别的标准文本。
具体应用中,还可采用以下类似方式实现文本聚类:按照生成时间从晚到早的顺序依次处理每一历史文本:将第一个历史文本归入第一个文本类别,作为第一个文本类别的第一个历史文本。若第二个历史文本与第一个历史文本类别的第一个历史文本的相似度大于等于0.8,则将其归入第一个文本类别;否则将其归入第二个文本类别,并作为第二个文本类别的第一个历史文本。若第三个历史文本与第一个文本类别的第一个历史文本的相似度大于等于0.8,则将其归入第一个文本类别;若存在第二个文本类别,且第三个历史文本与第二个文本类别的第一个历史文本的相似度大于等于0.8,则将其归入第二个文本类别;否则将其归入下一个文本类别并作为该文本类别的第一个历史文本。对每一个历史文本重复执行上述处理直到将每一个历史文本归入文本类别。
步骤S102:将文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐。
图3是根据本发明实施例的文本推荐方法的文本分组示意图。本步骤中的文本类别的分组可按照图3所示的下列步骤执行:
步骤S301:将至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列。
在本步骤中,为了降低运算耗时以实现待推荐文本的实时统计,需要从所有的文本类别中选取包含历史文本数量较多的文本类别进行分组处理,将其余文本类别舍弃。第一预设数量可根据实际环境设置,如在文本类别总数为200到500时可将第一预设数量设置为100。
S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为第一个文本类别的同量类别,将第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除。
具体地,第一个文本类别为当前的待分组类别序列中包含历史文本数量最大的文本类别。当前的待分组类别序列中的每一文本类别的邻接比指的是:该文本类别与其(在当前的待分组类别序列中的)在前文本类别包含的历史文本数量的比值,某文本类别的在前文本类别指的是:在当前的待分组类别序列中,与上述某文本类别相邻并处于其前向(即包含的历史文本数量增加的方向)的文本类别。可以理解的是,待分组类别序列中的第一个文本类别没有相应的邻接比。
特别地,上述邻接比连续不小于预设的比例阈值的文本类别指的是:对于该文本类别,首先其邻接比大于等于预设的比例阈值(如0.9);并且,在当前的待分组类别序列中,该文本类别的前向不存在邻接比小于比例阈值的文本类别。
S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。其中,第二预设数量可根据业务需求设置,其小于第一预设数量。
文本类别分组的过程可如下例所示:
若初始的待分组类别序列为:{a,b,c,d,e,f,g},其中,从a到g所包含的历史文本数量逐渐减少,从g到a的方向为该类别序列的前向。若从a到h包含的历史文本数量依次为100、90、85、65、50、49、45,则从b到g的邻接比分别为:0.9、0.94、0.76、0.77、0.98、0.92。对于b、c来说,二者的邻接比均大于等于比例阈值0.9,同时二者的前向均不存在邻接比小于0.9的文本类别,则b、c属于“邻接比连续不小于比例阈值的文本类别”。对于d、e来说,二者的邻接比小于0.9,因此不属于“邻接比连续不小于比例阈值的文本类别”。对于f、g来说,二者的邻接比均大于0.9,但是在当前的待分组类别序列(仍为初始的待分组类别序列)中,二者前向均存在邻接比小于0.9的文本类别d和e,因此f也不属于“邻接比连续不小于比例阈值的文本类别”。因此,将b和c作为a的同量类别与a形成一个文本分组,并将a、b、c从{a,b,c,d,e,f,g}中去除,至此实现了第一个文本分组的建立。
判断当前的文本分组数量1小于第二预设数量3,则需要继续分组。在当前的待分组类别序列{d,e,f,g}中,d为第一个文本类别,e、f、g的邻接比依次为0.77、0.98、0.92,不存在“邻接比连续不小于比例阈值的文本类别”,即d的同量类别为空,则将d单独作为第二个文本分组,并将其从{d,e,f,g}中去除。
判断当前的文本分组数量2小于第二预设数量3,需要继续分组。在当前的待分组类别序列{e,f,g}中,e为第一个文本类别,f、g的邻接比依次为0.98、0.92,二者均为“邻接比连续不小于比例阈值的文本类别”,即e的同量类别,则将e、f、g形成第三个文本分组,使得当前的文本分组数量等于第二预设数量3,于是结束文本类别的分组。
在得到第二预设数量的文本分组之后,可在每一文本分组中随机选取一个标准文本,将第二预设数量的标准文本作为待推荐文本向用户推荐。可以理解,通过上述聚类、分组得到的多个待推荐文本彼此的相似度较低(因此不会出现相似或重复的推荐)、能够涵盖较多的文本类别(因为每次推荐均从文本分组中大量的文本类别中随机选取)而且均为代表性较强的热点文本(每一待推荐文本的相似文本较多且自身的重复次数较大),将上述文本推荐于用户可有效提升其体验。
实际应用中,针对海量物品,可利用上述方法确定每一物品的多个文本分组,并以物品的SKU编码为rowkey(行键)将对应的多个文本分组存储在分布式系统数据库HBase,需要进行文本推荐时从HBase中读取文本数据即可。
需要说明的是,以上虽然主要以向用户推荐历史咨询问题文本的场景来说明本发明的技术方案,但这并不意味着本发明的应用场景仅限于此。事实上,本发明可应用于任何适当的文本推荐场景。
在本发明实施例的技术方案中,通过从大量的历史文本中自动统计待推荐文本向用户推荐,减少了用户的手动输入,提升了用户体验,同时也减轻了客服人员工作量;在确定待推荐文本时,首先根据历史文本间的相似度将相似性较高的历史文本归入同一文本类别,之后在包含较多历史文本数量的文本类别中选取包含历史文本数量相近的文本类别构成一个文本分组,将每一文本分组的标准文本作为待推荐文本,通过以上处理使得向用户推荐的多个待推荐文本具有以下三个特点:1.不是相似文本或重复文本;2.每一待推荐文本均为历史文本中代表性较强的热点文本;3.可涵盖较多的文本类别;从而提高文本推荐的准确性与多样性,进一步提升用户体验。
图4是本发明实施例的文本推荐装置的主要组成部分示意图。
如图4所示,本发明实施例的文本推荐装置400可包括:聚类模型401和推荐模型402。其中:
聚类模型401可用于获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;
推荐模块402可用于将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
在本发明实施例中,所述多个历史文本中的每一历史文本均对应于一生成时间;以及,所述聚类模块401可进一步用于执行以下步骤:S201:由所述多个历史文本组成初始的文本集合;S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与所述基础文本的相似度符合预设条件的历史文本确定为所述基础文本的相似文本,将所述基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除;S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
示例性地,所述预设条件包括:相似度不小于预设的相似度阈值。
在一可选实现方式中,所述推荐模块402可进一步用于执行以下步骤:S301:将所述至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将所述类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列;S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为所述第一个文本类别的同量类别,将所述第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除;其中,当前的待分组类别序列中每一文本类别的邻接比为:该文本类别与其在前文本类别包含的历史文本数量的比值;S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。
具体应用中,所述装置400可进一步包括:降噪模块,其用于在所述获取多个历史文本之后,利用预先建立的语言模型检测所述多个历史文本中的噪声数据,将检测到的噪声数据去除。
实际应用场景中,所述装置400可进一步包括:文本向量计算模块,其用于对于去除噪声数据的多个历史文本中的每一历史文本,确定其核心词,并将每一核心词的词向量的和作为该历史文本的文本向量;其中,所述词向量是利用词向量计算工具预先获得的;以及,任意两个历史文本的相似度为利用二者文本向量确定的余弦相似度。
作为一个优选方案,所述多个历史文本为:针对同一物品的历史咨询问题文本。
根据本发明实施例的技术方案,通过从大量的历史文本中自动统计待推荐文本向用户推荐,减少了用户的手动输入,提升了用户体验,同时也减轻了客服人员工作量;在确定待推荐文本时,首先根据历史文本间的相似度将相似性较高的历史文本归入同一文本类别,之后在包含较多历史文本数量的文本类别中选取包含历史文本数量相近的文本类别构成一个文本分组,将每一文本分组的标准文本作为待推荐文本,通过以上处理使得向用户推荐的多个待推荐文本具有以下三个特点:1.不是相似文本或重复文本;2.每一待推荐文本均为历史文本中代表性较强的热点文本;3.可涵盖较多的文本类别;从而提高文本推荐的准确性与多样性,进一步提升用户体验。
图5示出了可以应用本发明实施例的文本推荐方法或文本推荐装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的文本推荐方法一般由服务器505执行,相应地,文本推荐装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的文本推荐方法。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括聚类模型和推荐模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,聚类模块还可以被描述为“向推荐模块发送文本类别的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
根据本发明实施例的技术方案,通过从大量的历史文本中自动统计待推荐文本向用户推荐,减少了用户的手动输入,提升了用户体验,同时也减轻了客服人员工作量;在确定待推荐文本时,首先根据历史文本间的相似度将相似性较高的历史文本归入同一文本类别,之后在包含较多历史文本数量的文本类别中选取包含历史文本数量相近的文本类别构成一个文本分组,将每一文本分组的标准文本作为待推荐文本,通过以上处理使得向用户推荐的多个待推荐文本具有以下三个特点:1.不是相似文本或重复文本;2.每一待推荐文本均为历史文本中代表性较强的热点文本;3.可涵盖较多的文本类别;从而提高文本推荐的准确性与多样性,进一步提升用户体验。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (16)

1.一种文本推荐方法,其特征在于,包括步骤:
获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;
将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
2.根据权利要求1所述的方法,其特征在于,所述多个历史文本中的每一历史文本均对应于一生成时间;以及,所述根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别,包括步骤:
S201:由所述多个历史文本组成初始的文本集合;
S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与所述基础文本的相似度符合预设条件的历史文本确定为所述基础文本的相似文本,将所述基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除;
S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
3.根据权利要求2所述的方法,其特征在于,所述预设条件包括:相似度不小于预设的相似度阈值。
4.根据权利要求1所述的方法,其特征在于,所述将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组,具体包括:
S301:将所述至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将所述类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列;
S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为所述第一个文本类别的同量类别,将所述第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除;其中,当前的待分组类别序列中每一文本类别的邻接比为:该文本类别与其在前文本类别包含的历史文本数量的比值;
S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
在所述获取多个历史文本之后,利用预先建立的语言模型检测所述多个历史文本中的噪声数据,将检测到的噪声数据去除。
6.根据权利要求5所述的方法,其特征在于,所述方法进一步包括:对于去除噪声数据的多个历史文本中的每一历史文本,确定其核心词,并将每一核心词的词向量的和作为该历史文本的文本向量;其中,所述词向量是利用词向量计算工具预先获得的;以及,
任意两个历史文本的相似度为利用二者文本向量确定的余弦相似度。
7.根据权利要求1-6任一所述的方法,其特征在于,所述多个历史文本为:针对同一物品的历史咨询问题文本。
8.一种文本推荐装置,其特征在于,包括:
聚类模型,用于获取多个历史文本,根据历史文本之间的相似度将所述多个历史文本归入至少一个文本类别;
推荐模块,用于将所述文本类别按照其所包含的历史文本数量进行分组,得到至少一个文本分组;从每一文本分组中选取标准文本作为待推荐文本进行推荐;其中,每一文本分组的标准文本为:在该文本分组的每一文本类别中重复次数最大的历史文本。
9.根据权利要求8所述的装置,其特征在于,所述多个历史文本中的每一历史文本均对应于一生成时间;以及,所述聚类模块进一步用于执行以下步骤:S201:由所述多个历史文本组成初始的文本集合;S202:将当前的文本集合中生成时间最晚的历史文本确定为当前的文本集合的基础文本,将当前的文本集合中与所述基础文本的相似度符合预设条件的历史文本确定为所述基础文本的相似文本,将所述基础文本及其相似文本确定为一个文本类别,并将该文本类别从当前的文本集合中去除;S203:在判断去除该文本类别的文本集合不为空时,执行步骤S202和S203;直到初始的文本集合中的每一文本均归入一个文本类别。
10.根据权利要求9所述的装置,其特征在于,所述预设条件包括:相似度不小于预设的相似度阈值。
11.根据权利要求8所述的装置,其特征在于,所述推荐模块进一步用于执行以下步骤:S301:将所述至少一个文本类别按照所包含的历史文本数量从大到小的顺序排列,形成类别序列;将所述类别序列在前的、包含第一预设数量的文本类别的部分作为初始的待分组类别序列;S302:对于当前的待分组类别序列的第一个文本类别,将其后的、邻接比连续不小于预设的比例阈值的文本类别确定为所述第一个文本类别的同量类别,将所述第一个文本类别及其同量类别确定为一个文本分组,并将该文本分组从当前的待分组类别序列中去除;其中,当前的待分组类别序列中每一文本类别的邻接比为:该文本类别与其在前文本类别包含的历史文本数量的比值;S303:在判断当前文本分组的数量小于第二预设数量时,执行步骤S302和步骤S303;直到当前文本分组的数量等于第二预设数量。
12.根据权利要求8所述的装置,其特征在于,所述装置进一步包括:
降噪模块,用于在所述获取多个历史文本之后,利用预先建立的语言模型检测所述多个历史文本中的噪声数据,将检测到的噪声数据去除。
13.根据权利要求12所述的装置,其特征在于,所述装置进一步包括:
文本向量计算模块,用于对于去除噪声数据的多个历史文本中的每一历史文本,确定其核心词,并将每一核心词的词向量的和作为该历史文本的文本向量;其中,所述词向量是利用词向量计算工具预先获得的;以及,任意两个历史文本的相似度为利用二者文本向量确定的余弦相似度。
14.根据权利要求8-13任一所述的装置,其特征在于,所述多个历史文本为:针对同一物品的历史咨询问题文本。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201810149129.7A 2018-02-13 2018-02-13 文本推荐方法和装置 Pending CN110309293A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810149129.7A CN110309293A (zh) 2018-02-13 2018-02-13 文本推荐方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810149129.7A CN110309293A (zh) 2018-02-13 2018-02-13 文本推荐方法和装置

Publications (1)

Publication Number Publication Date
CN110309293A true CN110309293A (zh) 2019-10-08

Family

ID=68073637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810149129.7A Pending CN110309293A (zh) 2018-02-13 2018-02-13 文本推荐方法和装置

Country Status (1)

Country Link
CN (1) CN110309293A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111708884A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 文本分类方法、装置及电子设备
CN112784549A (zh) * 2019-11-08 2021-05-11 珠海金山办公软件有限公司 一种生成图表的方法、装置、及存储介质
US20210201892A1 (en) * 2019-12-31 2021-07-01 Beijing Didi Infinity Technology And Development Co., Ltd. Training mechanism of verbal harassment detection systems
US11664043B2 (en) 2019-12-31 2023-05-30 Beijing Didi Infinity Technology And Development Co., Ltd. Real-time verbal harassment detection system

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040019601A1 (en) * 2002-07-25 2004-01-29 International Business Machines Corporation Creating taxonomies and training data for document categorization
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN104079960A (zh) * 2013-12-05 2014-10-01 深圳市腾讯计算机系统有限公司 文件推荐方法和装置
CN106227792A (zh) * 2016-07-20 2016-12-14 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107180029A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 一种基于咨询业务的信息处理方法及装置
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040019601A1 (en) * 2002-07-25 2004-01-29 International Business Machines Corporation Creating taxonomies and training data for document categorization
CN102184262A (zh) * 2011-06-15 2011-09-14 悠易互通(北京)广告有限公司 基于web的文本分类挖掘系统及方法
CN104079960A (zh) * 2013-12-05 2014-10-01 深圳市腾讯计算机系统有限公司 文件推荐方法和装置
CN107180029A (zh) * 2016-03-09 2017-09-19 阿里巴巴集团控股有限公司 一种基于咨询业务的信息处理方法及装置
CN106227792A (zh) * 2016-07-20 2016-12-14 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107463658A (zh) * 2017-07-31 2017-12-12 广州市香港科大霍英东研究院 文本分类方法及装置
CN107526785A (zh) * 2017-07-31 2017-12-29 广州市香港科大霍英东研究院 文本分类方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784549A (zh) * 2019-11-08 2021-05-11 珠海金山办公软件有限公司 一种生成图表的方法、装置、及存储介质
CN112784549B (zh) * 2019-11-08 2024-01-26 珠海金山办公软件有限公司 一种生成图表的方法、装置、及存储介质
US20210201892A1 (en) * 2019-12-31 2021-07-01 Beijing Didi Infinity Technology And Development Co., Ltd. Training mechanism of verbal harassment detection systems
US11664043B2 (en) 2019-12-31 2023-05-30 Beijing Didi Infinity Technology And Development Co., Ltd. Real-time verbal harassment detection system
US11670286B2 (en) * 2019-12-31 2023-06-06 Beijing Didi Infinity Technology And Development Co., Ltd. Training mechanism of verbal harassment detection systems
CN111708884A (zh) * 2020-06-02 2020-09-25 上海硬通网络科技有限公司 文本分类方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11645517B2 (en) Information processing method and terminal, and computer storage medium
CN109815487B (zh) 文本质检方法、电子装置、计算机设备及存储介质
US20190163742A1 (en) Method and apparatus for generating information
CN106960030B (zh) 基于人工智能的推送信息方法及装置
CN107679217B (zh) 基于数据挖掘的关联内容提取方法和装置
CN110309293A (zh) 文本推荐方法和装置
CN109840730B (zh) 用于数据预测的方法及装置
CN112711705B (zh) 舆情数据处理方法、设备及存储介质
CN110390408A (zh) 交易对象预测方法和装置
CN107908662B (zh) 搜索系统的实现方法和实现装置
CN110119445A (zh) 生成特征向量和基于特征向量进行文本分类的方法和装置
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
CN110276065A (zh) 一种处理物品评论的方法和装置
CN113268560A (zh) 用于文本匹配的方法和装置
CN109146152A (zh) 一种线上事故等级预测方法和装置
CN109190123A (zh) 用于输出信息的方法和装置
CN113435859A (zh) 信访件处理方法、装置、电子设备和计算机可读介质
CN110442803A (zh) 由计算设备执行的数据处理方法、装置、介质和计算设备
CN110516033A (zh) 一种计算用户偏好的方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN112231299A (zh) 一种特征库动态调整的方法和装置
CN113987186B (zh) 一种基于知识图谱生成营销方案的方法和装置
CN110895655A (zh) 提取文本核心短语的方法和装置
CN109886702A (zh) 一种判定业务活动中异常行为的方法和装置
CN110852078A (zh) 生成标题的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination