CN113064986B - 模型的生成方法、系统、计算机设备和存储介质 - Google Patents

模型的生成方法、系统、计算机设备和存储介质 Download PDF

Info

Publication number
CN113064986B
CN113064986B CN202110482159.1A CN202110482159A CN113064986B CN 113064986 B CN113064986 B CN 113064986B CN 202110482159 A CN202110482159 A CN 202110482159A CN 113064986 B CN113064986 B CN 113064986B
Authority
CN
China
Prior art keywords
user
model
question
log information
session
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110482159.1A
Other languages
English (en)
Other versions
CN113064986A (zh
Inventor
任小芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110482159.1A priority Critical patent/CN113064986B/zh
Publication of CN113064986A publication Critical patent/CN113064986A/zh
Application granted granted Critical
Publication of CN113064986B publication Critical patent/CN113064986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于问题推荐的模型的生成方法、系统、计算机设备和存储介质,其中,模型的生成方法包括获取预设用户数据库中的用户日志信息,用户日志信息包括用户与服务方的会话信息,会话信息包括若干用户问题;对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;将关联问题集输入预训练的神经模型中,并输出关联问题集对应的预测分数;获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述神经模型进行训练,得到更新模型。因此,本发明可以在实现精准用户问题推荐的情况下,同时还方便数据的优化迭代。本发明还可以用于区块链技术领域。

Description

模型的生成方法、系统、计算机设备和存储介质
技术领域
本发明涉及数据分析技术领域,特别是涉及模型的生成方法、系统、计算机设备和存储介质。
背景技术
智能客服机器人一个核心功能点是问答,即在用户提出问题的时候,提供相应的答案。而为了进一步提高问答过程中的用户体验,问答推荐应运而生,使得机器人在回答用户问题的同时,预测用户接下来可能会提问的问题,以此减少用户输入的工作以及构思如何提问的压力。
问答推荐的两个核心步骤是生成候选关联问,以及关联问匹配推荐。经调研,现在主流的候选关联问都是离线人工配置的,同时关联问的匹配推荐也基本上基于规则匹配。这样的流程使得推荐文本单一,且无法高效的进行优化迭代;且推荐的内容可能与用户实际需求不一致。
发明内容
基于此,本发明提供了一种用于问题推荐的模型的生成方法、系统、计算机设备和存储介质,在实现精准用户问题推荐的情况下,同时还方便数据的优化迭代。
为实现上述目的,本发明提供一种用于问题推荐的模型的生成方法,所述模型的生成方法包括:
获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;
对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;
将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;
获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型。
优选的,所述对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集的步骤包括:
获取用户日志信息中的单通会话,并从该会话中任意选取两个用户问题组成一个二项集,判断该会话有几个用户问题,根据该会话的用户问题数量得到C(N,2)个二项集,N为所述会话中包含的N个用户问题,C为求组合数的符号;
重复操作,直至所有会话都形成二项集,将二项集汇总得到个二项集,并统计出现频率前预设比例的二项集作为关联二项集,其中,M为会话数,i为代表会话的编号;
对关联二项集进行结果清洗,得到关联问题集。
优选的,所述对关联二项集进行结果清洗,得到关联问题集的步骤包括:
对关联二项集进行内部去重;
采用规则匹配算法删除关联二项集的敏感信息,所述规则匹配算法为RETE算法,所述敏感信息包括电话号码和身份证号;
采用字符串编辑距离来判断关联二项集中的问题是否相关,当编辑距离大于预设阈值时,则删除编辑距离大于预设阈值的问题。
优选的,所述将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数还包括:
在神经模型中根据用户提问的习惯建立习惯权重,所述神经模型为wide&deep模型。
优选的,所述在神经模型中根据用户提问的习惯建立习惯权重的步骤还包括:
根据用户的问题记录获取用户的习惯,所述用户的问题记录包括用户的提问记录和用户点击问题的记录;
根据用户的问题记录、用户的属性以及每种用户属性对应的习惯项出现的概率,计算用户的人群习惯,用户的属性包括年龄、性别、职业和教育水平;
根据用户的习惯和人群习惯构建用户的习惯向量,所述用户的习惯向量中包括多个习惯项;
根据习惯项建立习惯权重。
优选的,所述得到更新模型之后还包括:
将当前用户的问题输入更新模型,得到关联问题集;
采用排序函数对关联问题集进行排序并得到初始的候选问题列表;
将初始的候选问题列表根据主题性、长度性、局部顺序性和真实性的要求进行筛选;
将筛选后的问题列表按照问题的重要性和质量从高到低的顺序进行再排序,选取前N条问题供用户选择,N为正整数。
优选的,所述选取前N条问题供用户选择之后还包括:
若用户点击了问题列表中某个问题,所述更新模型则自动获取该问题,并作为输入到更新模型中,并输出至少一个新的问题,并推荐给用户。
为实现上述目的,本发明还提供一种用于问题推荐的模型的生成系统,所述模型的生成系统包括:
用户数据模块,用于获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;
关联模块,用于对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;
预测模块,用于将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;
更新模块,用于获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型。
为实现上述目的,本发明还提供一种计算机设备,包括储存器和处理器,其特征在于,所述储存器中存储有可读指令,所述可读指令被所述处理器执行时,使得所述处理器执行如上所述模型的生成方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,存储有能够实现如上所述模型的生成方法的程序文件。
上述发明提供了一种用于问题推荐的模型的生成方法、系统、计算机设备和存储介质,其中,所述模型的生成方法包括获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型。因此,本发明的模型的生成方法可以在实现精准用户问题推荐的情况下,同时还方便数据的优化迭代。
附图说明
图1为一个实施例中提供的模型的生成方法的实施环境图;
图2为一个实施例中计算机设备的内部结构框图;
图3为一个实施例中模型的生成方法的流程图;
图4为一个实施例中模型的生成系统的示意图;
图5为另一个实施例中模型的生成系统的示意图;
图6为一个实施例中的计算机设备的结构示意图;
图7为一个实施例中的计算机可读存储介质的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。
图1为一个实施例中提供的一种用于问题推荐的模型的生成方法的实施环境图,如图1所示,在该实施环境中,包括计算设备110和显示设备120。
计算设备110可以为用户使用的电脑等计算机设备,计算设备110上安装有一种用于问题推荐的模型的生成系统。当计算时,用户可以在计算设备110依照一种用于问题推荐的模型的生成方法进行计算,并通过显示设备120显示计算结果。
需要说明的是,计算设备110和显示设备120组合起来可以为智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。
图2为一个实施例中计算机设备的内部结构示意图。如图2所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、储存器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种用于问题推荐的模型的生成方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算设备的运行。该计算机设备的储存器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种用于问题推荐的模型的生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
目前,客服基本可分为人工或自助两种方式。自助方式通常是用户通过自助渠道查找与问题对应的答案,具体的,是预先整理出用户可能遇到的各个问题以及与每一个问题对应的答案,并将问题与答案的对应关系部署到平台服务器上,之后用户通过访问平台服务器,便可以得到与所提出问题对应的答案。
传统的问答推荐,其候选问是人工配置,但实际可以利用已有的用户日志,分析抽取出用户的提问习惯,从中提取相关问题。在实现候选问的自动有效挖掘之后,并通过模型的优化向用户推荐出确实关联的问题。因此,如图3所示,本发明提供了一种用于问题推荐的模型的优化方法,模型的生成方法可以应用于上述的计算设备110和显示设备120中,具体可以包括以下步骤:
步骤31,获取预设用户数据库中的用户日志信息,所述用户日志信息包括若干用户与服务方的会话信息,所述会话信息包括若干用户问题。
其中,预设用户数据库包括所有用户数据信息,所述用户数据信息包括用户提出的所有问题信息、用户会话的时间、会话ID等等,其中,所述所有问题信息包括用户提出的问题和用户所选择点击的问题。本实施例中,可采用Redis作为存储用户数据信息的数据库,可采用Spout从Redis中获取用户日志信息。
步骤32,对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集。
其中,所述预处理包括日志清洗和session会话切割,即对用户日志信息进行清洗,清洗方式是与当前相关问提取的需求一致,即去除不包含关键信息的日志信息,同时进行会话session的切分。
具体的,所述日志清洗包括去除标准问为空的日志信息、去除标准问属于闲聊知识库的日志信息以及保留有用字段。其中,由于日志信息存储格式类似于HashMap,因此,去除标准问为空的日志信息的查找标准问对应的值是否为空即可判断;去除标准问属于闲聊知识库的日志信息中,由于日志信息会包含标准问所属的知识库名,因此知识库对应的值不为闲聊即可;根据事件的需求,保留有用字段,如用户问、标准问、时间、会话ID等。
具体的,所述session会话切割包括:预设时间内同一用户的问答日志作为一个切分,预设时间优选为30分钟,即根据用户日志信息记录的时间,每隔30分钟切割成一个通话。因为超过30分钟的不同会话中,问题关联性较弱。
进一步的,得到干净的会话数据后,所述对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集的步骤包括:
S321、获取用户日志信息中的单通会话,并从该会话中任意选取两个用户问题组成一个二项集,判断该会话有几个用户问题,根据该会话的用户问题数量得到C(N,2)个二项集,N为所述会话中包含的N个用户问题,C为求组合数的符号;
具体的,从若干会话中选取其中一个会话,从该会话中任意选取两个用户问题组成一个二项集。进一步的,需要判断该会话有几个用户问题,根据该会话的用户问题数量得到C(N,2)个二项集。
S322、重复操作,直至所有会话都形成二项集,将二项集汇总得到个二项集,并统计出现频率前预设比例的二项集作为关联二项集,其中,M为会话数,i为代表会话的编号;
具体的,所有的i加起来就是所有会话。
具体的,出现频率是指假设所有会话共得到100个二项集(问题对),统计每一个二项集的出现次数,若统计到相同的二项集,则出现次数+1,最终就得到所有二项集的出现频率。例如出现频率为前20%的二项集,作为关联二项集。
S323、对关联二项集进行结果清洗,得到关联问题集。
具体的,所述对关联二项集进行结果清洗,得到关联问题集的步骤包括:
S3231、对关联二项集进行内部去重;
具体的,即如果存在完全相同的候选关联问,则仅保留一个,去重的方法可采用Simhash算法。
S3232、采用规则匹配算法删除关联二项集的敏感信息,所述规则匹配算法为RETE算法,所述敏感信息包括电话号码、身份证号;
具体的,敏感信息除了包括电话号码和身份证号外,还包括银行卡号、账号密码等信息。
S3233、采用字符串编辑距离来判断关联二项集中的问题是否相关,当编辑距离大于预设阈值时,则删除编辑距离大于预设阈值的问题。
具体的,字符串编辑距离(Edit Distance)是针对两个字符串的差异程度的量化量测,量测方式是看至少需要多少次处理才能将一个字符串变成另一个字符串。
步骤33,将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数。
具体的,所述神经模型为经典wide&deep,所述用户日志信息含有大量用户问题,根据所述用户问题构建模型数据,并根据模型数据构建特征向量,将特征向量输入到wide&deep模型中进行预先训练,以得到预先训练好的神经模型。进一步的,在将所述关联问题集输入到预先训练好的神经模型中,所述神经模型输出预测结果,预测结果关联问题集对应的分数,分数是指由wide&deep模型对关联问题所预测的分数,分数在[0-1]这个区间,越接近0代表问题关联性越小。即模型的输入是关联问题集,即多个问题对;模型的输出是预测结果,即模型对多个问题对的预测结果;预测结果就是预测的分数,由模型计算得到。
更具体的,在神经模型中,根据用户提问的习惯建立习惯权重,并在神经模型内部加入习惯权重,以输出更为准确的预测问题集。
在神经模型中根据用户提问的习惯建立习惯权重的步骤还包括:
S331、根据用户的问题记录获取用户的习惯,所述用户的问题记录包括用户的提问记录和用户点击问题的记录;
具体的,用户的问题记录包括了用户在平台提出了哪些问题以及用户在获得问题推荐时点击了哪些问题,用户习惯是根据这些问题进行挖掘得到的。当然,用户的习惯还可以根据用户在平台的注册信息得到,是可以反映用户在较长时间段内所体现出的习惯的累积,具有相对稳定、随时间变化慢、习惯项比较分散等特点。
此外,还对用户习惯设定标签。
S332、根据用户的问题记录、用户的属性以及每种用户属性对应的习惯项出现的概率,计算用户的人群习惯,用户的属性包括年龄、性别、职业和教育水平;
具体的,用户的人群习惯可以依据用户的属性将用户划分为若干人群,针对不同人群来挖掘习惯,在用户习惯稀疏的情况下,利用群体性的习惯去估计用户的个性化习惯,根据用户所属人群来补充用户习惯。其中,用户的属性可以包括年龄、性别、行业、教育程度等等。人群习惯可以反映具有相同属性的用户构成的人群。
此外,还对人群习惯设定标签。
S333、根据用户的习惯和人群习惯构建用户的习惯向量,所述用户的习惯向量中包括多个习惯项;
具体的,通过对不同来源的用户的习惯和人群习惯进行习惯融合,线性加权构建出完整的用户习惯向量。其中,由于每个用户都具有一定的属性,当这些属性取不同值并组合在一起的时候,就构成不同类型的人群。人群习惯建模通过分人群统计习惯项,构建人群习惯模型,用来估计当用户属于某特定人群的情况下,最可能具有哪些习惯项。例如:如果用D代表人群习惯,ri表示用户的第i个属性取值,模型可以表示为:
D={P(tj|r1,r2,...,rM)|j=1,2,...N};
P(tj│r1,r2,…,rM)的含义是当用户属性组合r1,r2,…,rM出现时,习惯项tj出现的概率。人群习惯建模就是对所有的习惯项建立这样的概率模型,然后建立人群到习惯项的倒排表,并在倒排表内按概率大小进行排序,过滤掉概率值较低的习惯项,这样,就得到了想要的习惯项,并可以根据标签确定习惯项对应的属性。
S334、根据习惯项建立习惯权重。
具体的,在确定的习惯项的基础上,可以设定用户习惯项的加权系数的范围为0.1≤a≤0.5,用户人群习惯项的加权系数的范围为0.5≤d≤0.8。
在一可选实施例中,可以采用随机梯度下降(Stochastic Gradient Descent,SGD)算法训练所述神经网络模型,以提高训练精度。
步骤34,获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型。
其中,挖掘出具有关联的问题集后,则进行神经模型的训练和优化,与常规模型数据增量更新不同,常规是仅会对数据进行简单的去重,若数据存在现有数据中,则不作为增量训练的数据,本发明则是采用hard-增量数据,在新增数据的同时,可提高鲁棒性。
具体的,根据预设阈值选取不好评价的问题集,即预测分数小于预设阈值的关联问题,将这些问题集重新输入到所述神经模型中进行训练,得到更新模型。本发明用于hard-增量训练的数据会首先使用现有模型进行预测,是指当数据预测结果不理想,即预测分数小于阈值时,才会作为增量训练的数据,即此时获取的训练数据是更难被预测区分的数据,这样的数据对模型更有益处,能够提高模型的泛化性能,以此能够进一步提高训练结果的鲁棒性。
在一个实施例中,在获取到更新模型之后,如果识别当前用户是有问过问题的用户,则获取该用户过去所有的问题形成训练集,并作为训练数据再次输入到更新模型,再次得到新的更新模型,进一步优化了更新模型,提高了问题推荐的准确率。
在一个实施例中,获取当前用户的问题,所述问题输入到更新模型中,得到若干相关问题集,并采用排序函数对问题集进行排序,得到候选问题列表,将排序前N个的候选问题显示给客户,N为正整数。
所述采用排序函数对问题集进行排序,得到候选问题列表,将排序前N个的候选问题显示给客户的步骤具体包括:
S341、将当前用户的问题输入更新模型,得到关联问题集;
S342、采用排序函数对关联问题集进行排序并得到初始的候选问题列表;
S343、将初始的候选问题列表根据主题性、长度性、局部顺序性和真实性的要求进行筛选;
具体的,为了满足主题性的要求,利用主题模型(topic model,LDA)的方法为每个候选问题分配主题,并且限定返回的候选问题应来自于不同的主题;为了满足长度性的要求,限定返回候选问题的长度不能超过某一个阈值K,阈值K优先为60个字符;为了满足局部顺序性的要求,限制查询词语的相对顺序可以改变,但查询语句中基于实体词典和词组词典识别出的实体和词组的局部顺序不能改变;为了满足真实性的要求,限制候选问题中必须包含用户输入的单词。
S344、将筛选后的问题列表按照问题的重要性和质量从高到低的顺序进行再排序,选取前N条问题供用户选择,N为正整数。
具体的,在经过初始排序和筛选后,只能获得一个粗糙的问题排序列表,粗糙的问题排序列表会导致用户体验性不佳,这样,就需要一个再排序的过程,本实施例中,再排序过程中会对候选问题的重要性和质量进行了评估。
其中,重要性将采用用户选择问题的权威度和用户关心程度来衡量问题的重要性,在一个实施例中,通过用户点击最多的问题的数量可以用来衡量用户的权威度,因此,将采用用户点击次数最多的问题的权威度总和作为用户选择问题的权威度;此外,一个问题被多少个用户所点击可以表示用户群体对该问题的关心程度。综上以上两点,本实施例将这两项正则化后按相同权重加在一起表示问题的重要性。
其中,质量是对问题的形式方面进行评测,由于问题是用户提出的,而用户提出的问题有可能存在一些拼写、语法错误等,因此,本实施例将采用错误出现的次数来衡量问题的质量。
因此,在考虑了问题的重要性和质量后,将会对筛选后的列表进行再排序,能够被推荐到用户的面前供选择。同时,为了帮助用户快速识别不同候选问题的区别,会对每个候选问题的核心词,例如动词、名词或疑问词等进行了加粗处理,以提升用户的体验。
在一个实施例中,若用户点击了问题推荐列表中某个问题,所述更新模型将自动获取该问题,并作为输入,输出至少一个新的问题,并推荐给用户,以进一步提升问题推荐的精确度。
具体的,根据输出的问题推荐列表,用户选择相关或最接近的问题进行点击,在用户点击问题后,将根据预设问题-答案库自动输出该问题对应答案,一般来说,还会对用户进行提问,即该答案是否满意,如果满意,流程结束,如果不满意,则继续给出新的问题列表。
在一个实施例中,为了提高问题推荐的准确率,还引入了概率模型,以提高问题推荐的多样性,所述概率模型获得的步骤包括:
S341’、获取预设用户数据库中的用户日志信息,所述用户日志信息包括若干用户与服务方的会话信息,所述会话信息包括若干用户问题;
S342’、根据所述用户日志信息,获取任意两个问题在同一会话信息中出现的概率,所述概率为所述任意两个问题间的关联概率;
具体的,在一个实施例中,可采用问句相似性算法来确定每一会话中出现的各问题对应的标准问题。例如:
“问句1”对应于“标准问题1”;
“问句2”对应于“标准问题2”;
“问句3”对应于“标准问题3”。
对于每一会话而言,都可以根据该会话中出现过的标准问题来确定问题之间的相关性。例如:
在会话中:{问句1;问句2;答案1;答案2;问句3;答案3}中,可以确定出如下相关性:
标准问题1和标准问题2相关;
标准问题2和标准问题3相关;
标准问题1和标准问题3相关。
在对每一会话确定了上述相关性之后,便可以计算出任意两个标准问题在同一会话中出现的概率。
例如,对于标准问题1和标准问题2,若通过统计发现:在100个对话中出现了标准问题1但没有出现标准问题2,在另外100个对话中出现了标准问题2但没有出现标准问题1,在另外200个对话中同时出现了标准问题1和标准问题2,则计算出标准问题1和标准问题2在同一会话中出现的概率,即关联概率=200/(200+100+100)=50%。通过大数据计算,可以统计得到每个标准问题和其它标准问题之间在同一会话中出现的概率。其中,如果两个问题在同一会话中出现的概率越高,则表明这两个问题较大可能属于相关联问题,可能是用户在同一次会话中提出的两个问题。
S343’、根据获得的任意两个问题间的关联概率,确定所述概率模型。
具体的,所述概率模型用于计算当前用户点击的问题和其他问题间的关联概率。进一步的,所述概率模型用于根据计算出的概率来确定出问题与问题之间的对应关系,例如,当任意选取的两个问题之间的相关概率大于预设概率阈值,则将这两个问题确定为互为关联问题,预设阈值一般优选大于0.5,则所述概率模型中就只保留相关概率大于0.5的两个问题间的对应关系。
进一步的,根据获取的概率模型,若用户点击了问题推荐列表中某个问题,所述概率模型将自动获取该问题,并作为输入,输出与该问题关联的问题和每一个关联问题对应的分数,分数代表用户点击的问题与其关联问题之间的关联概率,并根据分数从关联问题中选择合适的问题推荐给用户,以进一步提升问题推荐的精确度。同样的,关联问题可根据分数的预设阈值选定。
本发明提出的模型的生成方法能够减少问答过程中用户输入的工作以及构思如何提问的压力。同时使用关联规则从日志中挖掘问题,实现对用户的问答习惯的结合,更加精准的推荐用户可能问题的问题,即本发明在实现自动化的同时,还提高了问答推荐的质量。此外,本发明提出的增量推荐模型的更新,也进一步方便数据的优化迭代。
在一个可选的实施方式中,还可以:将问题推荐列表和用户点击记录上传至区块链中。
具体地,基于模型的生成方法的结果得到对应的摘要信息,具体来说,摘要信息由所述模型的生成方法的结果进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得该摘要信息,以便查证所述模型的生成方法的结果是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本发明提供了一种用于问题推荐的模型的生成方法,所述模型的生成方法通过获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型。因此,本发明的模型的生成方法可以在实现精准用户问题推荐的情况下,同时还方便数据的优化迭代。
如图4所示,本发明还提供了一种用于问题推荐的模型的生成系统,该模型的生成系统可以集成于上述的计算设备110中,具体可以包括用户数据模块20、关联模块30、预测模块40以及更新模块50。
其中,用户数据模块20用于获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;关联模块30用于对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;预测模块40用于将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;更新模块50用于获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预训练的神经模型进行训练,得到更新模型。
在一个实施例中,所述关联模块30中,所述对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集的步骤包括:
获取用户日志信息中的单通会话,并从该会话中任意选取两个用户问题组成一个二项集,判断该会话有几个用户问题,根据该会话的用户问题数量得到C(N,2)个二项集,N为所述会话中包含的N个用户问题,C为求组合数的符号;
重复操作,直至所有会话都形成二项集,将二项集汇总得到个二项集,并统计出现频率前预设比例的二项集作为关联二项集,其中,M为会话数,i为代表会话的编号;
对关联二项集进行结果清洗,得到关联问题集。
在一个实施例中,所述关联模块30中,所述对关联二项集进行结果清洗,得到关联问题集的步骤包括:
对关联二项集进行内部去重;
采用规则匹配算法删除关联二项集的敏感信息,所述规则匹配算法为RETE算法,所述敏感信息包括电话号码、身份证号;
采用字符串编辑距离来判断关联二项集中的问题是否相关,当编辑距离大于预设阈值时,则删除编辑距离大于预设阈值的问题。
在一个实施例中,所述预测模块40中,所述将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;还包括:
在神经模型中根据用户提问的习惯建立习惯权重,所述神经模型为wide&deep模型。
在一个实施例中,所述预测模块40中,所述在神经模型中根据用户提问的习惯建立习惯权重的步骤还包括:
根据用户的问题记录获取用户的习惯,所述用户的问题记录包括用户的提问记录和用户点击问题的记录;
根据用户的问题记录、用户的属性以及每种用户属性对应的习惯项出现的概率,计算用户的人群习惯,用户的属性包括年龄、性别、职业和教育水平;
根据用户的习惯和人群习惯构建用户的习惯向量,所述用户的习惯向量中包括多个习惯项;
根据习惯项建立习惯权重。
在一个实施例中,请参考图5,所述模型的生成系统还包括第一推荐模块60,所述第一推荐模块60包括:
将当前用户的问题输入更新模型,得到关联问题集;
采用排序函数对关联问题集进行排序并得到初始的候选问题列表;
将初始的候选问题列表根据主题性、长度性、局部顺序性和真实性的要求进行筛选;
将筛选后的问题列表按照问题的重要性和质量从高到低的顺序进行再排序,选取前N条问题供用户选择,N为正整数。
在一个实施例中,请参考图5,所述模型的生成系统还包括第二推荐模块70,所述第二推荐模块70包括:
若用户点击了问题列表中某个问题,所述更新模型则自动获取该问题,并作为输入到更新模型中,并输出至少一个新的问题,并推荐给用户。
在一个实施例中,请参考图5,所述模型的生成系统还包括区块链模块80,用于在得到问题推荐列表和用户点击记录之后,将所述问题推荐列表和用户点击记录上传至区块链中,以使得所述区块链对所述问题推荐列表和用户点击记录进行加密存储。
以上各模块的处理步骤在方法的实施例中有具体细节描述,在此不再累述。
请参考图6,图6为本发明实施例的计算机设备的结构示意图。如图6所示,该设备200包括处理器201及和处理器201耦接的储存器202。
储存器202存储有用于实现上述任一实施例所述用于问题推荐的模型的生成方法的程序指令。
处理器201用于执行储存器202存储的程序指令。
其中,处理器201还可以称为CPU(Central Processing Unit,中央处理单元)。处理器201可能是一种集成电路芯片,具有信号的处理能力。处理器201还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图7,图7为本发明实施例的存储介质的结构示意图。本发明实施例的计算机可读存储介质存储有能够实现所述用于问题推荐的模型的生成方法的程序文件301,其中,该程序文件301可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读储存器(ROM,Read-Only Memory)、随机存取储存器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

Claims (8)

1.一种用于问题推荐的模型的生成方法,其特征在于,所述模型的生成方法包括:
获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;
对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;
将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;
获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型;
所述对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集的步骤包括:
获取用户日志信息中的单通会话,并从该会话中任意选取两个用户问题组成一个二项集,判断该会话有几个用户问题,根据该会话的用户问题数量得到C(N,2)个二项集,N为所述会话中包含的N个用户问题,C为求组合数的符号;
重复操作,直至所有会话都形成二项集,将二项集汇总得到个二项集,并统计出现频率排名前预设比例的二项集作为关联二项集,其中,M为会话数,i为代表会话的编号;
对关联二项集进行结果清洗,得到关联问题集;
所述对关联二项集进行结果清洗,得到关联问题集的步骤包括:
对关联二项集进行内部去重;
采用规则匹配算法删除关联二项集的敏感信息,所述规则匹配算法为RETE算法,所述敏感信息包括电话号码和身份证号;
采用字符串编辑距离来判断关联二项集中的问题是否相关,当编辑距离大于预设阈值时,则删除编辑距离大于预设阈值的问题。
2.如权利要求1所述的模型的生成方法,其特征在于,所述将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数还包括:
在神经模型中根据用户提问的习惯建立习惯权重,所述神经模型为wide&deep模型。
3.如权利要求2所述的模型的生成方法,其特征在于,所述在神经模型中根据用户提问的习惯建立习惯权重的步骤还包括:
根据用户的问题记录获取用户的习惯,所述用户的问题记录包括用户的提问记录和用户点击问题的记录;
根据用户的问题记录、用户的属性以及每种用户属性对应的习惯项出现的概率,计算用户的人群习惯,用户的属性包括年龄、性别、职业和教育水平;
根据用户的习惯和人群习惯构建用户的习惯向量,所述用户的习惯向量中包括多个习惯项;
根据习惯项建立习惯权重。
4.如权利要求1所述的模型的生成方法,其特征在于,所述得到更新模型之后还包括:
将当前用户的问题输入更新模型,得到关联问题集;
采用排序函数对关联问题集进行排序并得到初始的候选问题列表;
将初始的候选问题列表根据主题性、长度性、局部顺序性和真实性的要求进行筛选;
将筛选后的问题列表按照问题的重要性和质量从高到低的顺序进行再排序,选取前N条问题供用户选择,N为正整数。
5.如权利要求4所述的模型的生成方法,其特征在于,所述选取前N条问题供用户选择之后还包括:
若用户点击了问题列表中某个问题,所述更新模型则自动获取该问题,并作为输入到更新模型中,并输出至少一个新的问题,并推荐给用户。
6.一种用于问题推荐的模型的生成系统,所述系统用于实现如权利要求1-5任一项所述模型的生成方法,其特征在于,所述模型的生成系统包括:
用户数据模块,用于获取预设用户数据库中的用户日志信息,所述用户日志信息包括用户与服务方的会话信息,所述会话信息包括若干用户问题;
关联模块,用于对用户日志信息进行预处理,对经过预处理的用户日志信息利用二项集关联规则进行关联问题挖掘,得到关联问题集;
预测模块,用于将关联问题集输入预先训练的神经模型中,并输出关联问题集对应的预测分数;
更新模块,用于获取预测分数小于预设阈值的关联问题,将预测分数小于预设阈值的关联问题重新输入所述预先训练的神经模型进行训练,得到更新模型。
7.一种计算机设备,包括储存器和处理器,其特征在于,所述储存器中存储有可读指令,所述可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至5中任一项权利要求所述模型的生成方法的步骤。
8.一种计算机可读存储介质,其特征在于,存储有能够实现如权利要求1至5中任一项所述模型的生成方法的程序文件。
CN202110482159.1A 2021-04-30 2021-04-30 模型的生成方法、系统、计算机设备和存储介质 Active CN113064986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110482159.1A CN113064986B (zh) 2021-04-30 2021-04-30 模型的生成方法、系统、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110482159.1A CN113064986B (zh) 2021-04-30 2021-04-30 模型的生成方法、系统、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113064986A CN113064986A (zh) 2021-07-02
CN113064986B true CN113064986B (zh) 2023-07-25

Family

ID=76568194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110482159.1A Active CN113064986B (zh) 2021-04-30 2021-04-30 模型的生成方法、系统、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113064986B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451199A (zh) * 2017-07-05 2017-12-08 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
CN110032630A (zh) * 2019-03-12 2019-07-19 阿里巴巴集团控股有限公司 话术推荐设备、方法及模型训练设备
WO2020019686A1 (zh) * 2018-07-27 2020-01-30 众安信息技术服务有限公司 一种会话交互方法及装置
CN111400471A (zh) * 2020-03-13 2020-07-10 江苏满运软件科技有限公司 问题推荐方法、系统、电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451199A (zh) * 2017-07-05 2017-12-08 阿里巴巴集团控股有限公司 问题推荐方法及装置、设备
WO2020019686A1 (zh) * 2018-07-27 2020-01-30 众安信息技术服务有限公司 一种会话交互方法及装置
CN110032630A (zh) * 2019-03-12 2019-07-19 阿里巴巴集团控股有限公司 话术推荐设备、方法及模型训练设备
CN111400471A (zh) * 2020-03-13 2020-07-10 江苏满运软件科技有限公司 问题推荐方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
CN113064986A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
Barberá et al. Automated text classification of news articles: A practical guide
CN109376222B (zh) 问答匹配度计算方法、问答自动匹配方法及装置
Grimmer et al. Text as data: The promise and pitfalls of automatic content analysis methods for political texts
US20210056571A1 (en) Determining of summary of user-generated content and recommendation of user-generated content
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN110390052B (zh) 搜索推荐方法、ctr预估模型的训练方法、装置及设备
CN111191092A (zh) 画像数据处理方法和画像模型训练方法
Huang et al. Expert as a service: Software expert recommendation via knowledge domain embeddings in stack overflow
CN112035658A (zh) 基于深度学习的企业舆情监测方法
CN114169869B (zh) 一种基于注意力机制的岗位推荐方法及装置
CN113535963A (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN110866102A (zh) 检索处理方法
CN114610865A (zh) 召回文本推荐方法、装置、设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
Kolesnyk et al. Justification for the use of Cohen’s Kappa statistic in experimental studies of NLP and text mining
CN113988195A (zh) 一种私域流量线索挖掘方法、装置、车辆、可读介质
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN112906376A (zh) 一种自适应匹配的用户英语学习文本推送系统和方法
CN112685635A (zh) 基于分类标签的项目推荐方法、装置、服务器和存储介质
CN112330442A (zh) 基于超长行为序列的建模方法及装置、终端、存储介质
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN113064986B (zh) 模型的生成方法、系统、计算机设备和存储介质
Foote et al. A computational analysis of social media scholarship
Roelands et al. Classifying businesses by economic activity using web-based text mining
CN110413782B (zh) 一种表自动主题分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant