CN116860950B - 一种术语对话机器人语料更新方法及系统 - Google Patents
一种术语对话机器人语料更新方法及系统 Download PDFInfo
- Publication number
- CN116860950B CN116860950B CN202311126174.8A CN202311126174A CN116860950B CN 116860950 B CN116860950 B CN 116860950B CN 202311126174 A CN202311126174 A CN 202311126174A CN 116860950 B CN116860950 B CN 116860950B
- Authority
- CN
- China
- Prior art keywords
- corpus
- local
- answer
- preset
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012216 screening Methods 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims description 13
- 239000013598 vector Substances 0.000 claims description 11
- 230000014509 gene expression Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- VCUFZILGIRCDQQ-KRWDZBQOSA-N N-[[(5S)-2-oxo-3-(2-oxo-3H-1,3-benzoxazol-6-yl)-1,3-oxazolidin-5-yl]methyl]-2-[[3-(trifluoromethoxy)phenyl]methylamino]pyrimidine-5-carboxamide Chemical compound O=C1O[C@H](CN1C1=CC2=C(NC(O2)=O)C=C1)CNC(=O)C=1C=NC(=NC=1)NCC1=CC(=CC=C1)OC(F)(F)F VCUFZILGIRCDQQ-KRWDZBQOSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种术语对话机器人语料更新方法及系统,属于自然语言处理领域,其中方法包括:获取用户的检索问题;若提问方式为非结构化提问,将检索问题发送至第一智能术语对话平台;获取第一问题遍历结果;从第一问题遍历结果中提取与检索问题的问题相似度最高的目标本地问题;对匹配到的目标本地回答日志进行分析,并筛选得到最优回答语料;将最优回答语料与预设回答语料进行对比,得到预设语料偏差;当预设语料偏差达到预设偏差阈值时,进行预设本地语料库的更新。本申请解决了现有术语对话机器人语料库更新不及时、不准确,无法满足用户提问需求,用户体验差的技术问题,达到了及时准确更新语料库、提高对话服务质量的技术效果。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及一种术语对话机器人语料更新方法及系统。
背景技术
随着语音识别、语义理解等技术的提升,智能对话机器人已经能够进行一定程度的人机自然语言交互。然而,现有的智能对话机器人大多依赖构建的结构化知识库和语料库。由于对话场景的复杂多变,这种静态语料库难以涵盖用户日新月异的问题表达,导致对话机器人经常无法准确理解用户提问的意图,给不出符合语境的正确回答。而采用语料更新的术语对机器人往往更新不准确或者不及时,导致用户体验差。
发明内容
本申请通过提供了一种术语对话机器人语料更新方法及系统,旨在解决现有术语对话机器人语料库更新不及时、不准确,无法满足用户提问需求,用户体验差的技术问题。
鉴于上述问题,本申请提供了一种术语对话机器人语料更新方法及系统。
本申请公开的第一个方面,提供了一种术语对话机器人语料更新方法,该方法包括:通过用户端获取用户的检索问题,检索问题具备用户的提问方式的标识;若提问方式为非结构化提问,将检索问题发送至多方智能术语对话平台中的第一智能术语对话平台;获取第一问题遍历结果,第一问题遍历结果为第一智能术语对话平台将检索问题在第一本地语料库中遍历分析后得到的遍历结果;从第一问题遍历结果中提取与检索问题的问题相似度最高的目标本地问题;对匹配到的目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料;将最优回答语料与检索问题的预设回答语料进行对比,得到预设语料偏差,预设回答语料存储在预设本地语料库;当预设语料偏差达到预设偏差阈值时,以最优回答语料替代预设回答语料进行预设本地语料库的更新。
本申请公开的另一个方面,提供了一种术语对话机器人语料更新系统,该系统包括:检索问题获取模块,用于通过用户端获取用户的检索问题,检索问题具备用户的提问方式的标识;检索问题发送模块,用于若提问方式为非结构化提问,将检索问题发送至多方智能术语对话平台中的第一智能术语对话平台;遍历结果获取模块,用于获取第一问题遍历结果,第一问题遍历结果为第一智能术语对话平台将检索问题在第一本地语料库中遍历分析后得到的遍历结果;目标本地问题模块,用于从第一问题遍历结果中提取与检索问题的问题相似度最高的目标本地问题;最优回答语料模块,用于对匹配到的目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料;预设语料偏差模块,用于将最优回答语料与检索问题的预设回答语料进行对比,得到预设语料偏差,预设回答语料存储在预设本地语料库;语料库更新模块,用于当预设语料偏差达到预设偏差阈值时,以最优回答语料替代预设回答语料进行预设本地语料库的更新。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
由于采用了通过用户端获取用户的检索问题,检索问题具有用户提问方式的标识,以了解用户提问的具体方式;判断提问方式是否为非结构化提问,如果是,则将检索问题发送到多个智能术语对话平台中的第一智能术语对话平台,以获得更好的回答;获取第一智能术语对话平台遍历第一本地语料库后产生的第一遍历结果,得到针对该问题的初始回答;从第一遍历结果中提取与检索问题语义最接近的目标本地问题,以找到一个语义匹配的问题;分析目标本地问题的目标本地回答序列的回答日志,筛选出最优回答语料,判断出高质量的回答;将最优回答语料与该检索问题的预设回答语料进行对比,计算出预设语料的偏差,评估当前语料库中对该问题的回答质量;如果预设语料偏差达到预设阈值,则用最优回答语料替换预设回答语料,对预设语料库进行更新的技术方案,解决了现有术语对话机器人语料库更新不及时、不准确,无法满足用户提问需求,用户体验差的技术问题,达到了及时准确更新语料库、提高对话服务质量的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请实施例提供了一种术语对话机器人语料更新方法的一种流程示意图;
图2为本申请实施例提供了一种术语对话机器人语料更新方法中得到本地回答的适应度的一种流程示意图;
图3为本申请实施例提供了一种术语对话机器人语料更新系统的一种结构示意图。
附图标记说明:检索问题获取模块11,检索问题发送模块12,遍历结果获取模块13,目标本地问题模块14,最优回答语料模块15,预设语料偏差模块16,语料库更新模块17。
具体实施方式
本申请提供的技术方案总体思路如下:
本申请实施例提供了一种术语对话机器人语料更新方法及系统。首先,获取用户端的问题并判断提问方式,以了解用户的询问意图,所提出的问题作为语料更新的驱动因素,也充当语料质量评估的基准。其次,将非结构化提问发送到多个智能对话平台,通过多平台协同获取针对该提问的最佳回答,该最佳回答将作为语料更新的新内容。然后,将最佳回答与问题的预设回答进行对比,判断预设语料的质量是否达标,即是否需要更新。仅当预设语料偏差大时才执行更新,实现语料优化的适度性,使对话机器人语料库既能匹配用户需求,又具有高质量性,实现对话机器人语料库的主动、精准、适度的动态更新。
在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。
实施例一
如图1所示,本申请实施例提供了一种术语对话机器人语料更新方法,该方法应用于一种术语对话机器人语料更新系统,系统与多方智能术语对话平台通信连接。
在本申请实施例中,公开了一种术语对话机器人语料更新方法,该方法应用于一种术语对话机器人语料更新系统,系统与多方智能术语对话平台通信连接。其中,术语对话机器人是指能够进行专业术语对话的机器人;语料更新是指对机器人的语料库进行更新;语料库是指存储机器人对话能力相关语料的数据库;多方智能术语对话平台是指多个提供专业术语问答服务的智能对话平台。系统与多方智能术语对话平台通信连接,可使系统通过网络与多个智能对话平台进行数据交换。
语料更新方法包括:
通过用户端获取用户的检索问题,所述检索问题具备所述用户的提问方式的标识;
进一步的,本步骤具体包括:
组建预设提问方式集,所述预设提问方式集包括直接提问、结构化提问、非结构化提问;
基于所述预设提问方式集对所述提问方式进行识别判断。
在一种可行的实施方式中,预先定义好直接提问、结构化提问和非结构化提问三种提问方式,形成预设提问方式集。其中,直接提问是指用户通过直接点击预设好的问题进行提问的方式;结构化提问是指用户通过填写规定的问题逻辑进行提问的方式;非结构化提问是指用户采用自然语言的全主观编辑进行提问的方式。
当用户端获取用户输入的检索问题时,同时对检索问题的特征进行识别判断,判断其提问方式与预设提问方式集中的哪一种相匹配,得到检索问题的提问方式,提取提问方式的特征,形成提问方式的标识信息。如果检索问题通过点击预设问题提出,则判定为直接提问;如果检索问题通过填写规定格式的问题逻辑表提出,则判定为结构化提问;如果检索问题以自然语言描述提出,则判定为非结构化提问。随后,将检索问题与其提问方式标识一起发送给系统,系统接收到用户端发送的带有提问方式标识的检索问题。
若所述提问方式为非结构化提问,将所述检索问题发送至所述多方智能术语对话平台中的第一智能术语对话平台;
在本申请实施例中,在提问方式被判断为非结构化提问时,将检索问题发送至多方智能术语对话平台中的第一智能术语对话平台。其中,多方智能术语对话平台是指多个可以进行智能专业术语问答的对话平台系统;第一智能术语对话平台是指多方智能术语对话平台中的任意一个平台系统。
当系统接收的检索问题的提问方式标识为非结构化提问时,系统自动选择多方智能术语对话平台中的任一平台系统,作为第一智能术语对话平台。然后,系统将获取到的检索问题发送给所选择的第一智能术语对话平台,以使第一智能术语对话平台对所接收到的非结构化提问问题进行处理,给出回答。
获取第一问题遍历结果,所述第一问题遍历结果为所述第一智能术语对话平台将所述检索问题在第一本地语料库中遍历分析后得到的遍历结果;
在本申请实施例中,第一问题遍历结果是指第一智能术语对话平台将检索问题与存储在其第一本地语料库中的各个本地问题依次进行匹配对比后得到的分析结果;第一本地语料库是指第一智能术语对话平台中存储的该平台自己的语料库。
具体地,第一智能术语对话平台接收到检索问题后,在其存储的第一本地语料库中,将检索问题与语料库中的每个本地问题逐一进行匹配对比,完成遍历分析过程。遍历分析结束后,第一智能术语对话平台生成遍历分析的结果,作为第一问题遍历结果,并返回给系统。系统接收到第一智能术语对话平台返回的第一问题遍历结果,完成对该遍历结果的获取。
从所述第一问题遍历结果中提取与所述检索问题的问题相似度最高的目标本地问题;
进一步的,本步骤具体包括:
获取第一本地问题,所述第一本地问题是指从所述第一问题遍历结果中随机提取的问题;
分别基于预设问题成分获取所述第一本地问题中的第一成分和所述检索问题中的第二成分;
将所述第二成分在所述第一成分的第一词向量知识库中遍历,得到第一相似度,所述第一相似度用于表征所述第二成分与所述第一成分的相似度;
加权所述第一相似度得到所述问题相似度,并将所述第一问题遍历结果中与所述检索问题的问题相似度最高的问题记作所述目标本地问题。
在一种优选的实施方式中,系统从第一智能术语对话平台返回的第一问题遍历结果中,使用随机抽取算法,随机不重复依次选择任意一个本地问题作为第一本地问题。比如,第一问题遍历结果包含100个本地问题,则系统随机不重复地生成1-100之间的一个整数,选择对应序号的本地问题作为第一本地问题。然后,通过语法分析,基于预设问题成分从第一本地问题中提取出表示其主语、谓语、宾语等各成分的词组,作为第一本地问题的第一成分;同样,从检索问题中提取出表示其主语、谓语、宾语等各成分的词组,作为检索问题的第二成分。其中,预设问题成分是指预先定义好的用于表达一个问题的基本语法成分,如主语、谓语、宾语等。
随后,将检索问题的第二成分作为查询词组,在与第一本地问题各成分对应的词向量知识库中分别进行查询,计算查询词组与知识库中词向量的余弦相似度,作为两问题成分语义相似度,即第一相似度。其中,第一词向量知识库是指与第一本地问题的各成分对应的词向量知识库,词向量是用向量表示词的语义信息的方式。接着,采用根据经验预设的权重系数,对各成分之间的第一相似度进行加权计算,得到第一本地问题与检索问题的问题相似度,评估两问题的整体相似程度。最后,在第一问题遍历结果中所有的本地问题中,选择与检索问题相似度最高的本地问题,确定为目标本地问题。
对匹配到的所述目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料;
进一步的,本步骤具体包括:
根据所述目标本地回答日志得到第一本地回答的第一总点击次数,所述第一本地回答是指所述目标本地回答序列中的任意一个回答;
根据所述目标本地回答日志得到所述第一本地回答的第一总浏览时长;
根据所述目标本地回答日志得到所述第一本地回答的第一总认可次数;
根据所述目标本地回答日志得到所述第一本地回答的第一总不认可次数;
根据所述第一总点击次数、所述第一总浏览时长、所述第一总认可次数和所述第一总不认可次数得到所述第一本地回答的第一适应度;
基于所述第一适应度确定所述最优回答语料,其中,所述最优回答语料的适应度最高。
进一步的,如图2所示,适应度计算具体包括:
获取预设适应度函数,所述预设适应度函数的表达式如下:
;
其中,是指所述目标本地回答序列中的第x个本地回答的适应度函数,/>是指所述目标本地回答日志中的所述第x个本地回答的总点击次数,/>是指所述目标本地回答日志中的所述第x个本地回答的总浏览时长,/>是指所述目标本地回答日志中的所述第x个本地回答的总认可次数,/>是指所述目标本地回答日志中的所述第x个本地回答的总不认可次数,a,b,c,d分别为第一系数、第二系数、第三系数和第四系数,且a+b+c+d=1;
基于所述预设适应度函数计算得到所述第一适应度。
在一种优选的实施方式中,目标本地问题具有对应的目标本地回答序列,是指与目标本地问题匹配的回答序列。目标本地回答日志是用于记录目标本地回答序列中各回答数据的日志,含有对目标本地回答序列中的任意一个本地回答的详细记录,包括该本地回答的总点击次数、总浏览时长、总认可次数、总不认可次数等。其中,任意一个本地回答为第一本地回答。
系统解析目标本地回答日志,统计日志中第一本地回答被点击的全部点击次数,作为第一本地回答的第一总点击次数;统计第一本地回答在日志中记录的全部浏览时长,作为第一本地回答的第一总浏览时长;统计第一本地回答在日志中记录的全部认可次数,作为第一本地回答的第一总认可次数;统计第一本地回答在日志中记录的全部不认可次数,作为第一本地回答的第一总不认可次数,为评估本地回答质量提供数据支持。
然后,获取预设的适应度函数,该函数为;其中,/>是指目标本地回答序列中的第x个本地回答的适应度函数,/>分别表示目标本地回答日志中的第x个本地回答的总点击次数、总浏览时长、总认可次数、总不认可次数,a、b、c、d为系数,分别代表总点击次数、总浏览时长、总认可次数、总不认可次数的计算权重,且a+b+c+d=1。随后,将第一本地回答的第一总点击次数、第一总浏览时长、第一总认可次数和第一总不认可次数代入适应度函数进行计算,得到第一本地回答的适应度值,作为第一适应度。按照上述方式,计算目标本地回答序列中每个本地回答的适应度,从中选择适应度值最大的本地回答作为最优回答语料。
将所述最优回答语料与所述检索问题的预设回答语料进行对比,得到预设语料偏差,所述预设回答语料存储在预设本地语料库;
在本申请实施例中,预设回答语料是检索问题在预设本地语料库中对应的回答语料;预设本地语料库是用于存储预设回答语料的本地语料库;预设语料偏差是指最优回答语料与预设回答语料之间的差异程度。
首先,从预设本地语料库中提取出对应检索问题的预设回答语料。其次,在词语层面,计算两者语料的词汇交集百分比,反映词汇覆盖的差异;同时,在语法层面,分析两者语料的语法结构和语法复杂度的差异;在语义层面,利用词向量技术计算两者语料的语义相似度;在长度层面,计算两者语料的字数差异。然后,综合上述多方面差异结果,计算出两者语料的整体预设语料偏差。预设语料偏差越大,表示两者语料差异越大,预设回答语料需要更新的必要性越大。最终得到定量的预设语料偏差指标,用于评估预设回答语料的更新需求。
当所述预设语料偏差达到预设偏差阈值时,以所述最优回答语料替代所述预设回答语料进行所述预设本地语料库的更新。
在本申请实施例中,预设偏差阈值是根据对话要求预先设置的判断是否需要更新对话机器人语料的阈值。将计算得到的预设语料偏差与预设阈值进行对比,当预设语料偏差大于或等于预设偏差阈值时,判定达到了达到预设偏差阈值。此时,触发以最优回答语料替换预设回答语料进行更新的操作。系统直接以最优回答语料的内容覆盖预设本地语料库中对应检索问题的预设回答语料。替换完成后,预设本地语料库中的对应回答语料得到更新,完成对达到预设偏差阈值的预设语料偏差的自动化更新处理,有效实现预设语料库的自动更新优化。
进一步的,本申请实施例还包括:
若所述提问方式为直接提问,从预设直接问答语料库中遍历所述检索问题的预设回答,所述预设直接问答语料库存储于所述预设本地语料库;
获取所述用户对所述预设回答的满意度;
当所述满意度未达到预设满意度阈值时,对所述预设回答进行待更新标记。
在一种优选的实施方式中,预设直接问答语料库是存储预设问题及对应回答的语料库;预设回答是指检索问题在预设直接问答语料库中对应的回答;预设本地语料库是用于存储各种预设语料库的本地语料库。
当系统接收的检索问题的提问方式标识为直接提问时,系统在存储于预设本地语料库中的预设直接问答语料库中,根据检索问题遍历查找对应的预设回答。随后,将预设回答提供给用户,设置例如1—10分的评分机制,用户操作界面对该预设回答进行评分,选择一个满意度评分。系统记录用户选择的满意度评分,作为预设回答的满意度。
随后,系统预先设置满意度评分的阈值,将获取到用户对预设回答的满意度评分,例如5分,与预设满意度阈值进行对比。如果用户对预设回答的满意度低于预设满意度阈值,则判定满意度未达到预设满意度阈值。此时,系统对相应的预设回答添加待更新标记,用于提醒管理员注意需要优化的预设回答,实现对低满意度回答的标注,以便进行后续更新优化。
进一步的,本申请实施例还包括:
若所述提问方式为结构化提问,从所述第一本地语料库中遍历分析得到所述检索问题的第二问题遍历结果。
进一步的,本步骤具体包括:
根据结构化提问获取所述检索问题的第一结构化提问答案;
基于所述第一结构化提问答案对所述第一本地语料库进行筛选,得到第一筛选结果;
继续迭代至结构化提问中的结构化提问答案均被筛选完,得到目标筛选结果,所述目标筛选结果包括M个本地问题,M为大于等于1的整数;
将所述检索问题在所述M个本地问题中遍历分析后得到所述第二问题遍历结果,所述第二问题遍历结果用于进行所述预设本地语料库的更新。
在一种优选的实施方式中,结构化提问是通过多轮提问与回答迭代逐步缩小回答范围的智能提问方式,每轮提问给出选项,用户选择某选项后,下一轮提问基于该选择继续设置,以便缩小问题范围。本步骤是根据结构化提问获取检索问题的第一个结构化提问答案。当系统接收的检索问题的提问方式标识为结构化提问时,系统进行第一轮结构化提问,提供多个可选答案,用户选择一个答案作为该轮提问的回答。系统获取用户选择的这个第一轮提问的答案,作为检索问题的第一结构化提问答案。然后,系统提取第一结构化提问答案的特征信息,在第一本地语料库中,使用该特征信息进行匹配筛选,筛选出与第一结构化提问答案匹配的本地问题集合,作为第一轮筛选的结果,完成第一筛选结果的获取。
随后,进行第二轮提问,获取第二结构化提问答案,基于该答案进一步筛选。不断迭代上述流程,直到结构化提问中的所有轮答案均已被筛选,最终获得目标筛选结果,该结果包含M个匹配的本地问题,M个本地问题表示结果集合中的问题个数,M为大于等于1的整数。接着,在筛选得到的M个本地问题上,使用检索问题逐一进行匹配分析,分析比较检索问题与每个本地问题的相似程度。形成检索问题在M个本地问题上的遍历分析结果,作为第二问题遍历结果。该第二问题遍历结果将以与第一问题遍历结果相同的处理方式用于对预设本地语料库进行更新,从而提高对话机器人的服务质量。
综上所述,本申请实施例所提供的一种术语对话机器人语料更新方法具有如下技术效果:
通过用户端获取用户的检索问题,检索问题具备用户的提问方式的标识,获得语料更新的需求驱动,也作为评估语料质量的基准;若提问方式为非结构化提问,将检索问题发送至多方智能术语对话平台中的第一智能术语对话平台,分辨提问方式,为获取满意回答做准备;获取第一问题遍历结果,第一问题遍历结果为第一智能术语对话平台将检索问题在第一本地语料库中遍历分析后得到的遍历结果,获取初始的候选回答;从第一问题遍历结果中提取与检索问题的问题相似度最高的目标本地问题,找到与提问最匹配的已有问题,为获取最优回答做铺垫;对匹配到的目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料,形成高质量的新语料。将最优回答语料与检索问题的预设回答语料进行对比,得到预设语料偏差,预设回答语料存储在预设本地语料库,判断当前语料库对检索问题的回答质量好坏;当预设语料偏差达到预设偏差阈值时,以最优回答语料替代预设回答语料进行预设本地语料库的更新,使对话机器人语料得到主动、高效、精准、适度地更新与提升,从而提高对话服务质量,提高用户体验度。
实施例二
基于与前述实施例中一种术语对话机器人语料更新方法相同的发明构思,如图3所示,本申请实施例提供了一种术语对话机器人语料更新系统,该系统与多方智能术语对话平台通信连接,该系统包括:
检索问题获取模块11,用于通过用户端获取用户的检索问题,所述检索问题具备所述用户的提问方式的标识;
检索问题发送模块12,用于若所述提问方式为非结构化提问,将所述检索问题发送至所述多方智能术语对话平台中的第一智能术语对话平台;
遍历结果获取模块13,用于获取第一问题遍历结果,所述第一问题遍历结果为所述第一智能术语对话平台将所述检索问题在第一本地语料库中遍历分析后得到的遍历结果;
目标本地问题模块14,用于从所述第一问题遍历结果中提取与所述检索问题的问题相似度最高的目标本地问题;
最优回答语料模块15,用于对匹配到的所述目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料;
预设语料偏差模块16,用于将所述最优回答语料与所述检索问题的预设回答语料进行对比,得到预设语料偏差,所述预设回答语料存储在预设本地语料库;
语料库更新模块17,用于当所述预设语料偏差达到预设偏差阈值时,以所述最优回答语料替代所述预设回答语料进行所述预设本地语料库的更新。
进一步的,本申请实施例还包括提问方式集组建模块,该模块包括以下执行步骤:
组建预设提问方式集,所述预设提问方式集包括直接提问、结构化提问、非结构化提问;
基于所述预设提问方式集对所述提问方式进行识别判断。
进一步的,本申请实施例还包括直接提问模块,该模块包括以下执行步骤:
若所述提问方式为直接提问,从预设直接问答语料库中遍历所述检索问题的预设回答,所述预设直接问答语料库存储于所述预设本地语料库;
获取所述用户对所述预设回答的满意度;
当所述满意度未达到预设满意度阈值时,对所述预设回答进行待更新标记。
进一步的,本申请实施例还包括结构化提问模块,该模块包括以下执行步骤:
若所述提问方式为结构化提问,从所述第一本地语料库中遍历分析得到所述检索问题的第二问题遍历结果。
进一步的,结构化提问模块还包括以下执行步骤:
根据结构化提问获取所述检索问题的第一结构化提问答案;
基于所述第一结构化提问答案对所述第一本地语料库进行筛选,得到第一筛选结果;
继续迭代至结构化提问中的结构化提问答案均被筛选完,得到目标筛选结果,所述目标筛选结果包括M个本地问题,M为大于等于1的整数;
将所述检索问题在所述M个本地问题中遍历分析后得到所述第二问题遍历结果,所述第二问题遍历结果用于进行所述预设本地语料库的更新。
进一步的,目标本地问题模块14包括以下执行步骤:
获取第一本地问题,所述第一本地问题是指从所述第一问题遍历结果中随机提取的问题;
分别基于预设问题成分获取所述第一本地问题中的第一成分和所述检索问题中的第二成分;
将所述第二成分在所述第一成分的第一词向量知识库中遍历,得到第一相似度,所述第一相似度用于表征所述第二成分与所述第一成分的相似度;
加权所述第一相似度得到所述问题相似度,并将所述第一问题遍历结果中与所述检索问题的问题相似度最高的问题记作所述目标本地问题。
进一步的,最优回答语料模块15包括以下执行步骤:
根据所述目标本地回答日志得到第一本地回答的第一总点击次数,所述第一本地回答是指所述目标本地回答序列中的任意一个回答;
根据所述目标本地回答日志得到所述第一本地回答的第一总浏览时长;
根据所述目标本地回答日志得到所述第一本地回答的第一总认可次数;
根据所述目标本地回答日志得到所述第一本地回答的第一总不认可次数;
根据所述第一总点击次数、所述第一总浏览时长、所述第一总认可次数和所述第一总不认可次数得到所述第一本地回答的第一适应度;
基于所述第一适应度确定所述最优回答语料,其中,所述最优回答语料的适应度最高。
进一步的,最优回答语料模块15还包括以下执行步骤:
获取预设适应度函数,所述预设适应度函数的表达式如下:
;
其中,是指所述目标本地回答序列中的第x个本地回答的适应度函数,/>是指所述目标本地回答日志中的所述第x个本地回答的总点击次数,/>是指所述目标本地回答日志中的所述第x个本地回答的总浏览时长,/>是指所述目标本地回答日志中的所述第x个本地回答的总认可次数,/>是指所述目标本地回答日志中的所述第x个本地回答的总不认可次数,a,b,c,d分别为第一系数、第二系数、第三系数和第四系数,且a+b+c+d=1;
基于所述预设适应度函数计算得到所述第一适应度。
综上所述的方法的任意步骤都可作为计算机指令或者程序存储在不设限制的计算机存储器中,并可以被不设限制的计算机处理器调用识别用以实现本申请实施例中的任一项方法,在此不做多余限制。
进一步的,综上所述的第一或第二可能不止代表次序关系,也可能代表某项特指概念,和/或指的是多个元素之间可单独或全部选择。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请及其等同技术的范围之内,则本申请意图包括这些改动和变型在内。
Claims (8)
1.一种术语对话机器人语料更新方法,其特征在于,所述方法应用于一种术语对话机器人语料更新系统,所述系统与多方智能术语对话平台通信连接,所述方法包括:
通过用户端获取用户的检索问题,所述检索问题具备所述用户的提问方式的标识;
若所述提问方式为非结构化提问,将所述检索问题发送至所述多方智能术语对话平台中的第一智能术语对话平台;
获取第一问题遍历结果,所述第一问题遍历结果为所述第一智能术语对话平台将所述检索问题在第一本地语料库中遍历分析后得到的遍历结果;
从所述第一问题遍历结果中提取与所述检索问题的问题相似度最高的目标本地问题,包括:
获取第一本地问题,所述第一本地问题是指从所述第一问题遍历结果中随机提取的问题;
分别基于预设问题成分获取所述第一本地问题中的第一成分和所述检索问题中的第二成分;
将所述第二成分在所述第一成分的第一词向量知识库中遍历,得到第一相似度,所述第一相似度用于表征所述第二成分与所述第一成分的相似度;
加权所述第一相似度得到所述问题相似度,并将所述第一问题遍历结果中与所述检索问题的问题相似度最高的问题记作所述目标本地问题;
对匹配到的所述目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料;
将所述最优回答语料与所述检索问题的预设回答语料进行对比,得到预设语料偏差,所述预设回答语料存储在预设本地语料库;
当所述预设语料偏差达到预设偏差阈值时,以所述最优回答语料替代所述预设回答语料进行所述预设本地语料库的更新。
2.如权利要求1所述方法,其特征在于,所述方法还包括:
组建预设提问方式集,所述预设提问方式集包括直接提问、结构化提问、非结构化提问;
基于所述预设提问方式集对所述提问方式进行识别判断。
3.如权利要求2所述方法,其特征在于,所述基于所述预设提问方式集对所述提问方式进行识别判断,包括:
若所述提问方式为直接提问,从预设直接问答语料库中遍历所述检索问题的预设回答,所述预设直接问答语料库存储于所述预设本地语料库;
获取所述用户对所述预设回答的满意度;
当所述满意度未达到预设满意度阈值时,对所述预设回答进行待更新标记。
4.如权利要求2所述方法,其特征在于,若所述提问方式为结构化提问,从所述第一本地语料库中遍历分析得到所述检索问题的第二问题遍历结果。
5.如权利要求4所述方法,其特征在于,所述方法包括:
根据结构化提问获取所述检索问题的第一结构化提问答案;
基于所述第一结构化提问答案对所述第一本地语料库进行筛选,得到第一筛选结果;
继续迭代至结构化提问中的结构化提问答案均被筛选完,得到目标筛选结果,所述目标筛选结果包括M个本地问题,M为大于等于1的整数;
将所述检索问题在所述M个本地问题中遍历分析后得到所述第二问题遍历结果,所述第二问题遍历结果用于进行所述预设本地语料库的更新。
6.如权利要求1所述方法,其特征在于,所述对匹配到的所述目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料,包括:
根据所述目标本地回答日志得到第一本地回答的第一总点击次数,所述第一本地回答是指所述目标本地回答序列中的任意一个回答;
根据所述目标本地回答日志得到所述第一本地回答的第一总浏览时长;
根据所述目标本地回答日志得到所述第一本地回答的第一总认可次数;
根据所述目标本地回答日志得到所述第一本地回答的第一总不认可次数;
根据所述第一总点击次数、所述第一总浏览时长、所述第一总认可次数和所述第一总不认可次数得到所述第一本地回答的第一适应度;
基于所述第一适应度确定所述最优回答语料,其中,所述最优回答语料的适应度最高。
7.如权利要求6所述方法,其特征在于,所述根据所述第一总点击次数、所述第一总浏览时长、所述第一总认可次数和所述第一总不认可次数得到所述第一本地回答的第一适应度,包括:
获取预设适应度函数,所述预设适应度函数的表达式如下:
;
其中,是指所述目标本地回答序列中的第x个本地回答的适应度函数,/>是指所述目标本地回答日志中的所述第x个本地回答的总点击次数,/>是指所述目标本地回答日志中的所述第x个本地回答的总浏览时长,/>是指所述目标本地回答日志中的所述第x个本地回答的总认可次数,/>是指所述目标本地回答日志中的所述第x个本地回答的总不认可次数,a,b,c,d分别为第一系数、第二系数、第三系数和第四系数,且a+b+c+d=1;
基于所述预设适应度函数计算得到所述第一适应度。
8.一种术语对话机器人语料更新系统,其特征在于,用于实施权利要求1-7任意一项所述的一种术语对话机器人语料更新方法,所述系统与多方智能术语对话平台通信连接,所述系统包括:
检索问题获取模块,所述检索问题获取模块用于通过用户端获取用户的检索问题,所述检索问题具备所述用户的提问方式的标识;
检索问题发送模块,所述检索问题发送模块用于若所述提问方式为非结构化提问,将所述检索问题发送至所述多方智能术语对话平台中的第一智能术语对话平台;
遍历结果获取模块,所述遍历结果获取模块用于获取第一问题遍历结果,所述第一问题遍历结果为所述第一智能术语对话平台将所述检索问题在第一本地语料库中遍历分析后得到的遍历结果;
目标本地问题模块,所述目标本地问题模块用于从所述第一问题遍历结果中提取与所述检索问题的问题相似度最高的目标本地问题,包括以下执行步骤:
获取第一本地问题,所述第一本地问题是指从所述第一问题遍历结果中随机提取的问题;
分别基于预设问题成分获取所述第一本地问题中的第一成分和所述检索问题中的第二成分;
将所述第二成分在所述第一成分的第一词向量知识库中遍历,得到第一相似度,所述第一相似度用于表征所述第二成分与所述第一成分的相似度;
加权所述第一相似度得到所述问题相似度,并将所述第一问题遍历结果中与所述检索问题的问题相似度最高的问题记作所述目标本地问题;
最优回答语料模块,所述最优回答语料模块用于对匹配到的所述目标本地问题的目标本地回答序列的目标本地回答日志进行分析,并筛选得到最优回答语料;
预设语料偏差模块,所述预设语料偏差模块用于将所述最优回答语料与所述检索问题的预设回答语料进行对比,得到预设语料偏差,所述预设回答语料存储在预设本地语料库;
语料库更新模块,所述语料库更新模块用于当所述预设语料偏差达到预设偏差阈值时,以所述最优回答语料替代所述预设回答语料进行所述预设本地语料库的更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311126174.8A CN116860950B (zh) | 2023-09-04 | 2023-09-04 | 一种术语对话机器人语料更新方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311126174.8A CN116860950B (zh) | 2023-09-04 | 2023-09-04 | 一种术语对话机器人语料更新方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116860950A CN116860950A (zh) | 2023-10-10 |
CN116860950B true CN116860950B (zh) | 2023-11-14 |
Family
ID=88219375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311126174.8A Active CN116860950B (zh) | 2023-09-04 | 2023-09-04 | 一种术语对话机器人语料更新方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116860950B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460459A (zh) * | 2018-10-31 | 2019-03-12 | 神思电子技术股份有限公司 | 一种基于日志学习的对话系统自动优化方法 |
CN110990546A (zh) * | 2019-11-29 | 2020-04-10 | 中国银行股份有限公司 | 智能问答语料库更新方法和装置 |
CN111897938A (zh) * | 2020-06-30 | 2020-11-06 | 北京来也网络科技有限公司 | 结合rpa和ai的对话机器人回复方法、模型训练方法及装置 |
CN114238602A (zh) * | 2021-12-11 | 2022-03-25 | 阎德志 | 基于语料匹配的对话分析方法、装置、设备及存储介质 |
CN114997154A (zh) * | 2022-05-11 | 2022-09-02 | 北京科东电力控制系统有限责任公司 | 一种对话机器人语料自动构造方法及系统 |
CN115168562A (zh) * | 2022-07-28 | 2022-10-11 | 中国农业银行股份有限公司 | 一种智能问答系统的构建方法、装置、设备及介质 |
WO2022252636A1 (zh) * | 2021-06-01 | 2022-12-08 | 平安科技(深圳)有限公司 | 基于人工智能的回答生成方法、装置、设备及存储介质 |
CN116150306A (zh) * | 2022-07-01 | 2023-05-23 | 马上消费金融股份有限公司 | 问答机器人的训练方法、问答方法及装置 |
-
2023
- 2023-09-04 CN CN202311126174.8A patent/CN116860950B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460459A (zh) * | 2018-10-31 | 2019-03-12 | 神思电子技术股份有限公司 | 一种基于日志学习的对话系统自动优化方法 |
CN110990546A (zh) * | 2019-11-29 | 2020-04-10 | 中国银行股份有限公司 | 智能问答语料库更新方法和装置 |
CN111897938A (zh) * | 2020-06-30 | 2020-11-06 | 北京来也网络科技有限公司 | 结合rpa和ai的对话机器人回复方法、模型训练方法及装置 |
WO2022252636A1 (zh) * | 2021-06-01 | 2022-12-08 | 平安科技(深圳)有限公司 | 基于人工智能的回答生成方法、装置、设备及存储介质 |
CN114238602A (zh) * | 2021-12-11 | 2022-03-25 | 阎德志 | 基于语料匹配的对话分析方法、装置、设备及存储介质 |
CN114997154A (zh) * | 2022-05-11 | 2022-09-02 | 北京科东电力控制系统有限责任公司 | 一种对话机器人语料自动构造方法及系统 |
CN116150306A (zh) * | 2022-07-01 | 2023-05-23 | 马上消费金融股份有限公司 | 问答机器人的训练方法、问答方法及装置 |
CN115168562A (zh) * | 2022-07-28 | 2022-10-11 | 中国农业银行股份有限公司 | 一种智能问答系统的构建方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
面向水利信息资源的智能问答系统构建与应用;张紫璇;陆佳民;姜笑;冯钧;;计算机与现代化(03);65-71 * |
Also Published As
Publication number | Publication date |
---|---|
CN116860950A (zh) | 2023-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108764480B (zh) | 一种信息处理的系统 | |
CN108153800B (zh) | 信息处理方法、信息处理装置以及记录介质 | |
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
US9460712B1 (en) | Business listing search | |
US8515752B1 (en) | Voice interface for a search engine | |
CN109949071A (zh) | 基于语音情绪分析的产品推荐方法、装置、设备和介质 | |
JP4880258B2 (ja) | 信頼性スコアを使用した自然言語コール・ルーティングのための方法および装置 | |
CN111177359A (zh) | 多轮对话方法和装置 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN108932945A (zh) | 一种语音指令的处理方法及装置 | |
CN106250400A (zh) | 一种音频数据处理方法、装置以及系统 | |
CN110674276B (zh) | 机器人自学习方法、机器人终端、装置及可读存储介质 | |
CN109615009B (zh) | 一种学习内容推荐方法及电子设备 | |
CN117435716A (zh) | 电网人机交互终端的数据处理方法及系统 | |
CN111581338B (zh) | 一种农业技术服务机器人人机融合咨询问答方法及系统 | |
CN113297365A (zh) | 一种用户意向判定方法、装置、设备及存储介质 | |
CN111611358A (zh) | 信息交互方法、装置、电子设备及存储介质 | |
CN116860950B (zh) | 一种术语对话机器人语料更新方法及系统 | |
CN117312521A (zh) | 用于智能客服对话的处理方法及相关产品 | |
CN110413750B (zh) | 根据用户问句召回标准问句的方法和装置 | |
CN114328846B (zh) | 一种用于高校政策咨询的智能客服应答系统及方法 | |
CN113127720A (zh) | 一种热搜词确定方法及装置 | |
CN116386601A (zh) | 一种智能语音客服问答方法及系统 | |
CN114860883A (zh) | 一种智能问答方法及系统 | |
CN116975260A (zh) | 基于语义挖掘的投诉工单处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |