CN114117022A - 一种faq相似问题生成方法及系统 - Google Patents

一种faq相似问题生成方法及系统 Download PDF

Info

Publication number
CN114117022A
CN114117022A CN202210089762.8A CN202210089762A CN114117022A CN 114117022 A CN114117022 A CN 114117022A CN 202210089762 A CN202210089762 A CN 202210089762A CN 114117022 A CN114117022 A CN 114117022A
Authority
CN
China
Prior art keywords
data
data set
screened
faq
similar problem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210089762.8A
Other languages
English (en)
Other versions
CN114117022B (zh
Inventor
嵇望
陈默
梁青
王伟凯
安毫亿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yuanchuan Xinye Technology Co ltd
Original Assignee
Hangzhou Yuanchuan New Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yuanchuan New Technology Co ltd filed Critical Hangzhou Yuanchuan New Technology Co ltd
Priority to CN202210089762.8A priority Critical patent/CN114117022B/zh
Publication of CN114117022A publication Critical patent/CN114117022A/zh
Application granted granted Critical
Publication of CN114117022B publication Critical patent/CN114117022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种FAQ相似问题生成方法及系统,其中,方法包括:构建标准FAQ数据集;基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;获取待处理的FAQ数据;基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。本发明的FAQ相似问题生成方法及系统,可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ,用于后续的模型训练。

Description

一种FAQ相似问题生成方法及系统
技术领域
本发明涉及人工智能技术领域,特别涉及一种FAQ相似问题生成方法及系统。
背景技术
智能客服机器人,是一种使用自然语言与用户进行交流的人工智能信息系统,它采用包括自然语言理解、机器学习技术在内的多项智能人机交互技术,能够识别并理解用户以文字或语音形式提出的问题,通过语义分析理解用户意图,并以拟人化的方式与用户沟通,向用户提供信息咨询等相关服务。目前的智能客服会话的核心是进行用户意图匹配,只有明确了意图,才能给出针对性的回答,意图识别就是针对已知的训练语料(如语料格式为\((x,y)\)格式的元组列表,其中\(x\)为训练语料,\(y\)为期望输出类别或者称为意图)采用选定的算法构建一个模型,而后基于构建的模型对未知的文本进行分类。流程梳理如下:
准备训练数据,按照固定的格式进行;
抽取所需要的特征,形成特征向量;
抽取的特征向量与对应的期望输出(也就是目标label)一起输入到机器学习算法中,训练出一个预测模型;
对新到的数据采取同样的特征抽取,得到用于预测的特征向量;
使用训练好的预测模型,对处特征处理后的新数据进行预测,并返回结果。
但由于用户用词习惯或知识储备的不同,对于相同意思的问题,不同用户会采用不同的描述方式,不同的用户对于同一个意图会使用不同的表达方式,因此同一个意图的相似问题需要人工构建训练语料用于有监督的分类任务,费时费力,人工标注数据具有高昂的代价,利用有限的标注数据,获取到更多的训练数据,满足有监督模型训练的要求,训练出泛化能力更强的模型就变的极其重要。
发明内容
本发明目的之一在于提供了一种FAQ相似问题生成方法及系统,可以依据标准FAQ批量生成高质量、泛化性好的相似FAQ,用于后续的模型训练。
本发明实施例提供的一种FAQ相似问题生成方法,包括:
构建标准FAQ数据集;
基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;
获取待处理的FAQ数据;
基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
优选的,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
优选的,基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,包括:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
优选的,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
Figure 767284DEST_PATH_IMAGE001
;
其中,
Figure 453349DEST_PATH_IMAGE002
为信任值,
Figure 752743DEST_PATH_IMAGE003
为第
Figure 667609DEST_PATH_IMAGE004
个反馈数据包含第三待筛选数据的数据处理节点的 权限值;
Figure 985327DEST_PATH_IMAGE005
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
优选的,FAQ相似问题生成方法,还包括:
获取对于第二相似问题集的异常反馈的异常数据;
对异常数据进行验证;
当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
Figure 593026DEST_PATH_IMAGE006
;
其中,
Figure 645296DEST_PATH_IMAGE007
为效用值,
Figure 347541DEST_PATH_IMAGE008
为异常数据的第
Figure 801656DEST_PATH_IMAGE009
个用户的反馈值;
Figure 314677DEST_PATH_IMAGE010
为异常数据的第
Figure 837931DEST_PATH_IMAGE009
个用户的权限值;
Figure 94600DEST_PATH_IMAGE011
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
优选的,FAQ相似问题生成方法,还包括:
通过人工对异常数据的验证进行抽查,对验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
本发明还提供一种FAQ相似问题生成系统,包括:
数据集构建模块,用于构建标准FAQ数据集;
相似集构建模块,用于基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
模型构建模块,基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;
获取模块,用于获取待处理的FAQ数据;
生成模块,用于基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
优选的,相似集构建模块基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,执行如下操作:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
优选的,相似集构建模块基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,执行如下操作:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
优选的,相似集构建模块基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
Figure 137643DEST_PATH_IMAGE012
;
其中,
Figure 336412DEST_PATH_IMAGE013
为信任值,
Figure 97694DEST_PATH_IMAGE014
为第
Figure 423634DEST_PATH_IMAGE015
个反馈数据包含第三待筛选数据的数据处理节点的 权限值;
Figure 586762DEST_PATH_IMAGE016
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
优选的,FAQ相似问题生成系统,还包括:重构模块,重构模块执行如下操作:
获取对于第二相似问题集的异常反馈的异常数据;
对异常数据进行验证;
当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
Figure 690853DEST_PATH_IMAGE017
;
其中,
Figure 205011DEST_PATH_IMAGE018
为效用值,
Figure 69062DEST_PATH_IMAGE019
为异常数据的第
Figure 335964DEST_PATH_IMAGE020
个用户的反馈值;
Figure 892847DEST_PATH_IMAGE021
为异常数据的第
Figure 363143DEST_PATH_IMAGE020
个用户的权限值;
Figure 30884DEST_PATH_IMAGE022
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
优选的,FAQ相似问题生成方法,还包括:效用调整模块,效用调整模块执行如下操作:
获取人工对异常数据的验证进行抽查的结果,对结果判定为验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种FAQ相似问题生成方法的示意图;
图2为本发明实施例中一种FAQ相似问题生成方法的异常反馈的处理示意图;
图3为本发明实施例中一种FAQ相似问题生成系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种FAQ相似问题生成方法,如图1所示,包括:
步骤S1:构建标准FAQ数据集;通过对历史项目标准FAQ数据集的收集实现构建标准FAQ数据集;对历史项目的标准FAQ文件进行分析以及预处理,获得一定量的标准FAQ数据集并插入MongoDB数据库;
步骤S2:基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;例如:可以采用spider爬虫进行相似问题数据集的爬取;通过spider爬虫基于标准FAQ数据集获取到大量的待处理的相似问题数据;
步骤S3:基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;对爬取到的相似问题数据集进行清洗、去重等操作,并转换为适配模型训练数据集的格式;设置学习率、batchsize,迭代次数等参数,进行模型训练,对不同轮次的相似问题生成模型进行生成效果验证,选择生成效果最好的模型;基于Sequence-to-Sequence(Seq2Seq)模型、bert模型和UniLM模型的构建过程,模型结构等。依据当前任务的特点构建模型的整体框架和流程,基于pytroch深度学习框架编写模型的数据处理部分、输入部分、输出部分、loss函数的计算、模型保存以及模型优化器等。其中网络结构设计,相当于是模型的假设空间,即模型能够表达的关系集合。神经网络模型学习的目的是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程为称为最优化。解决这个问题使用的算法叫做优化器。
步骤S4:获取待处理的FAQ数据;对模型预测代码进程工程化改造,封装成Web接口,以api服务的形式提供开发侧调用,并完成和开发侧的对接;进而获取用户的待处理的FAQ数据;
步骤S5:基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。将生成的第二相似问题数据集发送给用户;
机器人的意图识别算法主要是基于统计的文本分类算法,其特点是严重依赖于训练语料,大规模的垂直领域文本分类语料是文本分类算法的关键所在,所以构建垂直领域的文本分类训练语料对于智能机器人的意图识别至关重要,与现有人工构建相似问题FAQ相比,通过本发明的FAQ相似问题生成方法自动生成相似问题FAQ能够有效降低人工投入,处理速度更高效,大幅度减小语料训练师的投入,提升项目交付的效率。机器学习与传统编程技术的明显区别就是机器学习是以数据为驱动的,因此文本分类训练语料的质量、数量决定了文本分类机器学习模型的分类效果,此外,中文的一个意图表达方式多种多样,每个意图维护的相似语料越丰富,模型越能够学习的更好,对这个意图的语义理解能力就会越深刻,而生成相似问题的模型是基于百度百科千万级用户的语义表达问题数据学习到的模型,能生成大规模、高质量、表达方式多样化的相似问题,提升相似问题FAQ的质量,提升意图识别准确率。
在一个实施例中,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;匹配通过计算语义相似度,当语义相似度大于预设的阈值(例如0.85)时,可以确定两者匹配;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
其中,基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,包括:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;当问题数据与答案数据都匹配符合时,可以确定第二问题数据为第一问题数据的相似问题数据;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;因计算机是通过计算语义相似度进行判断,因此存在实际为相似问题的数据其语义相似度并不符合要求,通过计算与第一问题数据的相似问题的语义相似度,再通过阈值判断,将这部分数据复检出,进而提高最后的第一相似问题数据集构建的全面性;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
上述技术方案的工作原理及有益效果为:
通过对大数据平台上各个存储节点存储的FAQ数据进行筛选,获取标准FAQ数据中第一问题数据对应的相似问题,保证最后构建的第一相似问题集中的相似问题的数量及质量。
在一个实施例中,基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
Figure 152293DEST_PATH_IMAGE023
;
其中,
Figure 880077DEST_PATH_IMAGE024
为信任值,
Figure 103248DEST_PATH_IMAGE025
为第
Figure 309102DEST_PATH_IMAGE026
个反馈数据包含第三待筛选数据的数据处理节点的 权限值;
Figure 550596DEST_PATH_IMAGE027
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
上述技术方案的工作原理及有益效果为:
通过定义反馈数据中提取的第三待筛选数据的信任值,是基于数据处理节点的共识机制,进行标准FAQ数据的第一问题对应的相似问题的确定;例如:大数据平台为每个数据处理节点分配数据处理节点的权限值;分配的权限值的区间为0至5;设置的信任阈值为100,即只有反馈说同一个相似问题的数据处理节点的和值大于100时,才能信任该相似问题为真实;进而构建出第二数据集;然后对信任值不足的反馈,进行二次筛选,提高最后确定的第一相似问题数据集的全面性。
在一个实施例中,FAQ相似问题生成方法,如图2所示,还包括:
步骤S11:获取对于第二相似问题集的异常反馈的异常数据;通过对各个用户的异常反馈中的异常数据进行预处理,确定相同的异常数据,相同的异常数据进行一次验证;
步骤S12:对异常数据进行验证;
步骤S13:当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
步骤S14:基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
Figure 449282DEST_PATH_IMAGE028
;
其中,
Figure 628591DEST_PATH_IMAGE029
为效用值,
Figure 887403DEST_PATH_IMAGE030
为异常数据的第
Figure 999715DEST_PATH_IMAGE031
个用户的反馈值;
Figure 803723DEST_PATH_IMAGE032
为异常数据的第
Figure 1486DEST_PATH_IMAGE031
个用户的权限值;
Figure 798410DEST_PATH_IMAGE033
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
上述技术方案的工作原理及有益效果为:
通过反馈数据的用户的权限值及其对应的反馈值进行自动验证,实现了重建模块的合理触发,并且验证通过时,对应的反馈数据以被确定为真实有效,从而进行模型重建,以提高模型的准确性。其中,权限值为预先给各个用户配置;反馈值也为各个用户配置一个初始值。
在一个实施例中,FAQ相似问题生成方法,还包括:
通过人工对异常数据的验证进行抽查,对验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
上述技术方案的工作原理及有益效果为:
通过采用人工抽查的方式,进行验证结果的确定,并对验证结果错误的对应的用户的反馈值进行调整,以保证下次此用户参与的反馈的验证的准确性;预设的调整次数与调整值对照表中各个调整值都为负值,并且随着调整次数的增多,调整值越小;当然,反馈值调整后的数值不能小于零。
本发明还提供一种FAQ相似问题生成系统,如图3所示,包括:
数据集构建模块1,用于构建标准FAQ数据集;
相似集构建模块2,用于基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
模型构建模块3,基于标准FAQ数据集和相似问题数据集,构建相似问题生成深度学习模型;
获取模块4,用于获取待处理的FAQ数据;
生成模块5,用于基于相似问题生成深度学习模型和待处理的FAQ数据,生成对应待处理的FAQ数据对应的第二相似问题数据集。
在一个实施例中,相似集构建模块2基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,执行如下操作:
提取标准FAQ数据集中任一标准FAQ数据;
解析标准FAQ数据,确定第一问题数据和第一答案数据;
将大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将第一问题数据与目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取目标数据集中与第一问题数据相匹配的第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将第一答案数据与目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取目标数据集中与第一答案数据相匹配的第二答案数据对应的第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集。
在一个实施例中,相似集构建模块2基于第一待筛选数据集和第二待筛选数据集,构建第一相似问题数据集,执行如下操作:
将第一待筛选数据集与第二待筛选数据集中相同的数据作为标准FAQ数据的第一问题数据的相似问题数据并构建为第一数据集;
将第一待筛选数据集中与第一数据集中相同的数据删除,获得第三待筛选数据集;
将第二待筛选数据集中与第一数据集中相同的数据删除,获得第四待筛选数据集;
将第三待筛选数据集中的各个第二问题数据对应的第二答案数据与第一数据集中各个第二问题数据对应的第二答案数据进行匹配,当第一数据集中存在匹配符合项时,将第三待筛选数据集中的第二答案数据对应得第二问题数据添加进第一数据集中并将其从第三待筛选数据集中删除;
将第四待筛选数据集中的各个第二问题数据与第一数据集中各个第二问题数据进行匹配,当第一数据集中存在匹配符合项时,将第四待筛选数据集中的第二问题数据添加进第一数据集中并将其从第四待筛选数据集中删除;
直至第三待筛选数据集和第四待筛选数据集中不存在可以添加进第一数据集中的第二问题数据时,将第一数据集作为第一相似问题数据集。
在一个实施例中,相似集构建模块2基于标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取标准FAQ数据集中任一标准FAQ数据;
基于标准FAQ数据,生成相似问题数据获取请求;
将相似问题数据获取请求发送至大数据平台上的各个数据处理节点;
接收各个数据处理节点对于相似问题数据获取请求的反馈数据;
解析各个数据处理节点的反馈数据,获取多个第三待筛选数据;
基于第三待筛选数据对应的反馈的数据处理节点的权限值,确定各个第三待筛选数据对应的信任值,信任值的计算公式如下:
Figure 765229DEST_PATH_IMAGE034
;
其中,
Figure 740138DEST_PATH_IMAGE035
为信任值,
Figure 425197DEST_PATH_IMAGE036
为第
Figure 25812DEST_PATH_IMAGE037
个反馈数据包含第三待筛选数据的数据处理节点的 权限值;
Figure 847137DEST_PATH_IMAGE038
为反馈数据包含第三待筛选数据的数据处理节点的数目;
基于信任值大于预设的信任阈值的第三待筛选数据,构建第二数据集;
基于信任值小于等于预设的信任阈值的第三待筛选数据,构建第五待筛选数据集;
将第五待筛选数据集中的各个第三待筛选数据中的第三问题数据分别与第二数据集中的第三问题数据以及标准FAQ数据中的第一问题数据匹配并且将第五待筛选数据集中的各个第三待筛选数据对应的第三答案数据分别与第二数据集中的第三问题数据对应的第三答案数据以及标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将第五待筛选数据集中的第三待筛选数据添加进第二数据集并将其从第五待筛选数据集中删除;
直至第五待筛选数据集中不存在可添加至第二数据集中的数据时,将第二数据集作为第一相似问题数据集。
在一个实施例中,FAQ相似问题生成系统,还包括:重构模块,重构模块执行如下操作:
获取对于第二相似问题集的异常反馈的异常数据;
对异常数据进行验证;
当验证通过时,基于异常数据,确定异常的相似问题数据并将其从第一相似问题集中删除;
基于删除后的第一相似问题集和标准FAQ数据集,重新构建相似问题生成深度学习模型;
其中,对异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定异常数据的效用值,计算公式如下:
Figure 258527DEST_PATH_IMAGE039
;
其中,
Figure 165303DEST_PATH_IMAGE040
为效用值,
Figure 304029DEST_PATH_IMAGE041
为异常数据的第
Figure 245440DEST_PATH_IMAGE042
个用户的反馈值;
Figure 562152DEST_PATH_IMAGE043
为异常数据的第
Figure 956225DEST_PATH_IMAGE042
个用户的权限值;
Figure 898642DEST_PATH_IMAGE044
为异常数据的反馈的用户的总数;
当效用值大于预设的验证阈值时,确定验证通过。
在一个实施例中,FAQ相似问题生成方法,还包括:效用调整模块,效用调整模块执行如下操作:
获取人工对异常数据的验证进行抽查的结果,对结果判定为验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的用户的反馈值的历史调整记录;
基于历史调整记录,确定用户的反馈值的调整次数;
基于调整次数和预设的调整次数与调整值对照表,确定此次反馈值的调整值。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种FAQ相似问题生成方法,其特征在于,包括:
构建标准FAQ数据集;
基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
基于所述标准FAQ数据集和所述相似问题数据集,构建相似问题生成深度学习模型;
获取待处理的FAQ数据;
基于所述相似问题生成深度学习模型和所述待处理的FAQ数据,生成对应所述待处理的FAQ数据对应的第二相似问题数据集。
2.如权利要求1所述的FAQ相似问题生成方法,其特征在于,所述基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取所述标准FAQ数据集中任一标准FAQ数据;
解析所述标准FAQ数据,确定第一问题数据和第一答案数据;
将所述大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据对应的所述第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于所述第一待筛选数据集和所述第二待筛选数据集,构建所述第一相似问题数据集。
3.如权利要求2所述的FAQ相似问题生成方法,其特征在于,所述基于所述第一待筛选数据集和所述第二待筛选数据集,构建所述第一相似问题数据集,包括:
将所述第一待筛选数据集与所述第二待筛选数据集中相同的数据作为所述标准FAQ数据的所述第一问题数据的所述相似问题数据并构建为第一数据集;
将所述第一待筛选数据集中与所述第一数据集中相同的数据删除,获得第三待筛选数据集;
将所述第二待筛选数据集中与所述第一数据集中相同的数据删除,获得第四待筛选数据集;
将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配,当所述第一数据集中存在匹配符合项时,将所述第三待筛选数据集中的所述第二答案数据对应得所述第二问题数据添加进所述第一数据集中并将其从所述第三待筛选数据集中删除;
将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述第二问题数据进行匹配,当所述第一数据集中存在匹配符合项时,将所述第四待筛选数据集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删除;
直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一数据集中的所述第二问题数据时,将所述第一数据集作为所述第一相似问题数据集。
4.如权利要求1所述的FAQ相似问题生成方法,其特征在于,所述基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取所述标准FAQ数据集中任一标准FAQ数据;
基于所述标准FAQ数据,生成相似问题数据获取请求;
将所述相似问题数据获取请求发送至所述大数据平台上的各个数据处理节点;
接收各个所述数据处理节点对于所述相似问题数据获取请求的反馈数据;
解析各个所述数据处理节点的所述反馈数据,获取多个第三待筛选数据;
基于所述第三待筛选数据对应的反馈的所述数据处理节点的权限值,确定各个所述第三待筛选数据对应的信任值,所述信任值的计算公式如下:
Figure DEST_PATH_IMAGE001
;
其中,
Figure DEST_PATH_IMAGE003
为所述信任值,
Figure DEST_PATH_IMAGE005
为第
Figure DEST_PATH_IMAGE007
个所述反馈数据包含所述第三待筛选数据的所述数据处理节点的权限值;
Figure DEST_PATH_IMAGE009
为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的数目;
基于所述信任值大于预设的信任阈值的所述第三待筛选数据,构建第二数据集;
基于所述信任值小于等于预设的信任阈值的所述第三待筛选数据,构建第五待筛选数据集;
将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所述第二数据集中的第三问题数据以及所述标准FAQ数据中的第一问题数据匹配并且将所述第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数据集中的第三问题数据对应的所述第三答案数据以及所述标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将所述第五待筛选数据集中的所述第三待筛选数据添加进所述第二数据集并将其从第五待筛选数据集中删除;
直至所述第五待筛选数据集中不存在可添加至所述第二数据集中的数据时,将所述第二数据集作为所述第一相似问题数据集。
5.如权利要求1所述的FAQ相似问题生成方法,其特征在于,还包括:
获取对于所述第二相似问题集的异常反馈的异常数据;
对所述异常数据进行验证;
当验证通过时,基于所述异常数据,确定异常的相似问题数据并将其从所述第一相似问题集中删除;
基于删除后的所述第一相似问题集和所述标准FAQ数据集,重新构建所述相似问题生成深度学习模型;
其中,对所述异常数据进行验证,包括:
基于异常数据反馈的用户的反馈值,确定所述异常数据的效用值,计算公式如下:
Figure DEST_PATH_IMAGE011
;
其中,
Figure DEST_PATH_IMAGE013
为所述效用值,
Figure DEST_PATH_IMAGE015
为所述异常数据的第
Figure DEST_PATH_IMAGE017
个用户的反馈值;
Figure DEST_PATH_IMAGE019
为所述异常数据的第
Figure 88391DEST_PATH_IMAGE017
个用户的权限值;
Figure DEST_PATH_IMAGE021
为所述异常数据的反馈的用户的总数;
当所述效用值大于预设的验证阈值时,确定验证通过。
6.如权利要求5所述的FAQ相似问题生成方法,其特征在于,还包括:
通过人工对所述异常数据的验证进行抽查,对验证错误的异常数据对应的用户的反馈值进行调整,
获取需要调整的所述用户的反馈值的历史调整记录;
基于所述历史调整记录,确定所述用户的反馈值的调整次数;
基于所述调整次数和预设的调整次数与调整值对照表,确定此次所述反馈值的调整值。
7.一种FAQ相似问题生成系统,其特征在于,包括:
数据集构建模块,用于构建标准FAQ数据集;
相似集构建模块,用于基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集;
模型构建模块,基于所述标准FAQ数据集和所述相似问题数据集,构建相似问题生成深度学习模型;
获取模块,用于获取待处理的FAQ数据;
生成模块,用于基于所述相似问题生成深度学习模型和所述待处理的FAQ数据,生成对应所述待处理的FAQ数据对应的第二相似问题数据集。
8.如权利要求7所述的FAQ相似问题生成系统,其特征在于,所述相似集构建模块基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,执行如下操作:
提取所述标准FAQ数据集中任一标准FAQ数据;
解析所述标准FAQ数据,确定第一问题数据和第一答案数据;
将所述大数据平台上各个存储节点存储的FAQ数据集作为目标数据集;
将所述第一问题数据与所述目标数据集中的各个FAQ数据中的第二问题数据进行匹配,获取所述目标数据集中与所述第一问题数据相匹配的所述第二问题数据作为第一待筛选数据并构建第一待筛选数据集;
将所述第一答案数据与所述目标数据集中的各个FAQ数据中的第二答案数据进行匹配,获取所述目标数据集中与所述第一答案数据相匹配的所述第二答案数据所对应的所述第二问题数据作为第二待筛选数据并构建第二待筛选数据集;
基于所述第一待筛选数据集和所述第二待筛选数据集,构建所述第一相似问题数据集。
9.如权利要求8所述的FAQ相似问题生成系统,其特征在于,所述相似集构建模块基于所述第一待筛选数据集和所述第二待筛选数据集,构建所述第一相似问题数据集,执行如下操作:
将所述第一待筛选数据集与所述第二待筛选数据集中相同的数据作为所述标准FAQ数据的所述第一问题数据的所述相似问题数据并构建为第一数据集;
将所述第一待筛选数据集中与所述第一数据集中相同的数据删除,获得第三待筛选数据集;
将所述第二待筛选数据集中与所述第一数据集中相同的数据删除,获得第四待筛选数据集;
将所述第三待筛选数据集中的各个所述第二问题数据对应的所述第二答案数据与所述第一数据集中各个所述第二问题数据对应的所述第二答案数据进行匹配,当所述第一数据集中存在匹配符合项时,将所述第三待筛选数据集中的所述第二答案数据对应得所述第二问题数据添加进所述第一数据集中并将其从所述第三待筛选数据集中删除;
将所述第四待筛选数据集中的各个所述第二问题数据与所述第一数据集中各个所述第二问题数据进行匹配,当所述第一数据集中存在匹配符合项时,将所述第四待筛选数据集中的所述第二问题数据添加进所述第一数据集中并将其从所述第四待筛选数据集中删除;
直至所述第三待筛选数据集和所述第四待筛选数据集中不存在可以添加进所述第一数据集中的所述第二问题数据时,将所述第一数据集作为所述第一相似问题数据集。
10.如权利要求7所述的FAQ相似问题生成系统,其特征在于,所述相似集构建模块基于所述标准FAQ数据集,从大数据平台上获取相似问题数据并构建第一相似问题数据集,包括:
提取所述标准FAQ数据集中任一标准FAQ数据;
基于所述标准FAQ数据,生成相似问题数据获取请求;
将所述相似问题数据获取请求发送至所述大数据平台上的各个数据处理节点;
接收各个所述数据处理节点对于所述相似问题数据获取请求的反馈数据;
解析各个所述数据处理节点的所述反馈数据,获取多个第三待筛选数据;
基于所述第三待筛选数据对应的反馈的所述数据处理节点的权限值,确定各个所述第三待筛选数据对应的信任值,所述信任值的计算公式如下:
Figure DEST_PATH_IMAGE023
;
其中,
Figure DEST_PATH_IMAGE025
为所述信任值,
Figure DEST_PATH_IMAGE027
为第
Figure DEST_PATH_IMAGE029
个所述反馈数据包含所述第三待筛选数据的所述数据处理节点的权限值;
Figure DEST_PATH_IMAGE031
为所述反馈数据包含所述第三待筛选数据的所述数据处理节点的数目;
基于所述信任值大于预设的信任阈值的所述第三待筛选数据,构建第二数据集;
基于所述信任值小于等于预设的信任阈值的所述第三待筛选数据,构建第五待筛选数据集;
将所述第五待筛选数据集中的各个所述第三待筛选数据中的第三问题数据分别与所述第二数据集中的第三问题数据以及所述标准FAQ数据中的第一问题数据匹配并且将所述第五待筛选数据集中的各个所述第三待筛选数据对应的第三答案数据分别与所述第二数据集中的第三问题数据对应的所述第三答案数据以及所述标准FAQ数据中的第一问题数据对应的第一答案数据匹配,当同时匹配符合时,将所述第五待筛选数据集中的所述第三待筛选数据添加进所述第二数据集并将其从第五待筛选数据集中删除;
直至所述第五待筛选数据集中不存在可添加至所述第二数据集中的数据时,将所述第二数据集作为所述第一相似问题数据集。
CN202210089762.8A 2022-01-26 2022-01-26 一种faq相似问题生成方法及系统 Active CN114117022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210089762.8A CN114117022B (zh) 2022-01-26 2022-01-26 一种faq相似问题生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210089762.8A CN114117022B (zh) 2022-01-26 2022-01-26 一种faq相似问题生成方法及系统

Publications (2)

Publication Number Publication Date
CN114117022A true CN114117022A (zh) 2022-03-01
CN114117022B CN114117022B (zh) 2022-05-06

Family

ID=80361471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210089762.8A Active CN114117022B (zh) 2022-01-26 2022-01-26 一种faq相似问题生成方法及系统

Country Status (1)

Country Link
CN (1) CN114117022B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150006156A1 (en) * 2012-01-18 2015-01-01 Tencent Technology (Shenzhen) Company Limited User question processing method and system
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN109993229A (zh) * 2019-04-02 2019-07-09 广东石油化工学院 一种严重不平衡数据分类方法
US10437833B1 (en) * 2016-10-05 2019-10-08 Ontocord, LLC Scalable natural language processing for large and dynamic text environments
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN112101423A (zh) * 2020-08-22 2020-12-18 上海昌投网络科技有限公司 一种多模型融合的faq匹配的方法及装置
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
US20210406327A1 (en) * 2020-10-09 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Resource recommendation method and apparatus, parameter determination method and apparatus, device, and medium

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150006156A1 (en) * 2012-01-18 2015-01-01 Tencent Technology (Shenzhen) Company Limited User question processing method and system
US10437833B1 (en) * 2016-10-05 2019-10-08 Ontocord, LLC Scalable natural language processing for large and dynamic text environments
CN108345585A (zh) * 2018-01-11 2018-07-31 浙江大学 一种基于深度学习的自动问答方法
CN109993229A (zh) * 2019-04-02 2019-07-09 广东石油化工学院 一种严重不平衡数据分类方法
CN111046152A (zh) * 2019-10-12 2020-04-21 平安科技(深圳)有限公司 Faq问答对自动构建方法、装置、计算机设备及存储介质
CN112101423A (zh) * 2020-08-22 2020-12-18 上海昌投网络科技有限公司 一种多模型融合的faq匹配的方法及装置
US20210406327A1 (en) * 2020-10-09 2021-12-30 Beijing Baidu Netcom Science And Technology Co., Ltd. Resource recommendation method and apparatus, parameter determination method and apparatus, device, and medium
CN112541079A (zh) * 2020-12-10 2021-03-23 杭州远传新业科技有限公司 多意图识别方法、装置、设备及介质
CN113505586A (zh) * 2021-06-07 2021-10-15 中电鸿信信息科技有限公司 一种融合语义分类与知识图谱的坐席辅助问答方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NATKANOK POKSAPPAIBOON,等: "Detecting Text Semantic Similarity by Siamese Neural Networks with MaLSTM in Thai Language", 《2021 2ND INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS AND PRACTICES (IBDAP)》 *
卜文娟,等: "基于概念图的中文FAQ问答系统", 《计算机工程》 *

Also Published As

Publication number Publication date
CN114117022B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN108764480B (zh) 一种信息处理的系统
CN103207855B (zh) 针对产品评论信息的细粒度情感分析系统及方法
Singh et al. A review of studies on machine learning techniques
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN112579707A (zh) 一种日志数据的知识图谱构建方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN107832047A (zh) 一种基于lstm的非api函数实参推荐方法
CN103678318B (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
CN113177101B (zh) 用户轨迹识别方法、装置、设备及存储介质
Zheng et al. Meta label correction for learning with weak supervision
CN112115264B (zh) 面向数据分布变化的文本分类模型调整方法
CN112148852A (zh) 一种智能客服方法、装置、存储介质及计算机设备
CN114896977A (zh) 一种物联网实体服务信任值的动态评估方法
CN113254624B (zh) 基于人工智能的智能问答处理方法、装置、设备及介质
CN114117022B (zh) 一种faq相似问题生成方法及系统
CN112988704A (zh) 一种基于ai咨询数据库集群搭建方法和系统
CN110362828B (zh) 网络资讯风险识别方法及系统
CN111967973A (zh) 银行客户数据处理方法及装置
US20210019611A1 (en) Deep learning system
Nicart et al. Building document treatment chains using reinforcement learning and intuitive feedback
CN113761081A (zh) 一种用于对企业信息进行多维度组合检索的方法及其系统
CN111062484A (zh) 基于多任务学习的数据集选取方法及装置
CN113360772A (zh) 一种可解释性推荐模型训练方法与装置
CN111897943A (zh) 会话记录搜索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: Room 23011, Yuejiang commercial center, No. 857, Xincheng Road, Puyan street, Binjiang District, Hangzhou, Zhejiang 311611

Patentee after: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Address before: 23 / F, World Trade Center, 857 Xincheng Road, Binjiang District, Hangzhou City, Zhejiang Province, 310051

Patentee before: Hangzhou Yuanchuan New Technology Co.,Ltd.

CP03 Change of name, title or address
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Generating Similar FAQ Problems

Effective date of registration: 20230509

Granted publication date: 20220506

Pledgee: China Everbright Bank Limited by Share Ltd. Hangzhou branch

Pledgor: Hangzhou Yuanchuan Xinye Technology Co.,Ltd.

Registration number: Y2023980040155

PE01 Entry into force of the registration of the contract for pledge of patent right