CN114238598A - 一种问答系统及其标注、审核与模型训练的方法 - Google Patents
一种问答系统及其标注、审核与模型训练的方法 Download PDFInfo
- Publication number
- CN114238598A CN114238598A CN202111488405.0A CN202111488405A CN114238598A CN 114238598 A CN114238598 A CN 114238598A CN 202111488405 A CN202111488405 A CN 202111488405A CN 114238598 A CN114238598 A CN 114238598A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- answer
- questions
- answers
- base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 title claims abstract description 15
- 238000002372 labelling Methods 0.000 title abstract description 7
- 238000012216 screening Methods 0.000 claims description 2
- 238000012550 audit Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种问答系统及其标注、审核与模拟训练的方法,包括如下步骤:步骤1,设置待完善的问答知识库;步骤2,设置用于所述问答知识库的预定的问题和对应的正确答案;步骤3,对所述问答知识库提出预定的问题并将输出的答案储存;步骤4,将所述对应的正确答案与所述输出的答案进行比对,对所述比对的结果进行划分并做标记;步骤5,根据所述标记完善所述问答知识库。
Description
技术领域
本发明涉及信息处理技术领域,特别是一种问答系统及其标注、审核与模型训练的方法。
背景技术
QA回答主要有两种主流技术:一种是基于知识图谱的回答,优点是比较精准,缺点是固定模板;另一种是FAQ问答,核心技术多为基于FAQ的相似度匹配,优点是相对灵活,缺点是回答的相关性相对比较差。
现有的问答系统多为单一模型,且存在流程与模型的融合度不佳、功能单一以及缺乏有效的反哺工具的问题,尚未有融合多种模型且具备训练模型和数据标注与审核功能的方法和系统。
发明内容
针对上述问题及现有方案的缺点,本专利提出一种问答系统,该系统融合了FAQ和知识图谱两种模型,且该系统包含了模型的标注、训练与部署一体化的流程和方法。与单一模型的QA问答系统相比,本专利的有益效果为:本专利技术的问答系统回答准确率更高;本专利提出的一种标注、训练、部署一体化的流程和方法,可使模型的训练和部署更有效与便捷。
一种用于问答知识库的自我完善的方法,包括如下步骤:
步骤1,设置待完善的问答知识库;
步骤2,设置用于所述问答知识库的预定的问题和对应的正确答案;
步骤3,对所述问答知识库提出预定的问题并将输出的答案储存;
步骤4,将所述对应的正确答案与所述输出的答案进行比对,对所述比对的结果进行划分并做标记;
步骤5,根据所述标记完善所述问答知识库。
优选地,在所述步骤4中,标记出两种错误中的一个或者多个:问题分类错误和回答错误。
最好,所述回答错误包括不能输出答案和所述输出的答案错误。
最好,根据所述步骤4中标记出的错误,步骤5还包括对应的步骤51打回给所述问答知识库和/或者增加知识图谱和FAQ和/或者修正知识图谱和修正FAQ。
最好,所述步骤5还包括步骤52,根据所述比对得出准确率,以确定是否达到完善的标准。
最好,在所述步骤1之前还包括步骤001,对所述待完善的问答知识库进行初步的质量校验和审核。
优选地,所述问答知识库为FAQ与知识图谱彼此融合的问答知识库。
更优选地,在所述步骤001之后还包括步骤002,针对回答策略进行训练。
最好,所述针对回答策略进行的训练包括设置知识图谱和FAQ各自的优先级,针对所选择的知识图谱或者FAQ进行匹配的表征量的筛选,然后生成所述待完善的问答知识库,用于接下来的步骤。
一种问答知识库装置,包括对应于上述用于问答知识库的自我完善的方法中的各步骤的模块。
附图说明
图1为本发明的一种问答系统的流程示意图;
图2为本发明的设定智能问答策略模型的流程示意图;
图3为本发明的智能问答策略模型的测试与改进流程示意图;和
图4为本发明的问答知识库的自我完善方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加的清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1,示出了一种问答系统,包括以下步骤:步骤1,使用者注册并登录所述系统;步骤2,使用者上传行业数据;步骤3,系统对所述行业数据进行初步审核;步骤4:使用者根据系统提示设定适用所述行业数据的智能问答策略模型A;步骤5:对所述智能问答策略模型A的训练和初始化;步骤6:对所述智能问答策略模型A的测试和迭代改进。
其中,所述步骤2中,使用者上传的行业数据包括FAQ问题数据和知识图谱数据。所述FAQ问题数据就是QA对,如:“糖尿病人可以吃那些食物?回答:高纤维食物,含糖低的蔬菜,含钙的食物,富含硒的食物.....”所述知识图谱数据(XML格式)如下所示:
知识图谱实体:
知识图谱关系:
除了批量上传外,本方法还提供了单个节点创建和关系创建的流程和步骤如下:
1,创建节点,输入节点名称,属性。
2,选中两个节点,创建关系,输入关系名称,属性。
在所述步骤3中,系统设有自动的基础审核工具,包括QA审核和知识图谱审核。使用者选择所述审核工具之后,后台分别执行对FAQ数据和知识图谱数据的初步审核。
如图2,所述步骤4的问答策略模型A包括以下步骤:步骤401,判定是优先知识图谱模型或优先FAQ模型;步骤402,选择意图分类的模型,例如深度学习方法DNN、基于规则的决策树等;步骤403,若选择优先知识图谱回答,则确定知识图谱回答的具体策略。例如实体匹配优先,还是关系匹配优先;步骤404,若选择优先FAQ回答,选择FAQ回答的相似度算法模型。例如文本距离、向量距离等。
所述步骤5对上述步骤4的模型A执行训练和初始化。如第一次训练参数可以进行随机初始化,或第二次训练采用第一次训练后的参数初始化模型。
使用者确定好智能回答的策略后,需提供一定数量的具体问题对确定的模型A进行实际的测试并改进。所述步骤6包括如下步骤:步骤601,对所述模型A的问答对错进行标注;步骤602,依据策略B纠正所述模型A,并循环迭代;如图3,示出了模型A测试和改进的具体流程。提供1000个真实问答,然后对模型A进行测试,并输出回答结果。审核人员人工观察QA分类,并判断回答的对错,同时对回答结果进行标注。回答正确的标注正确,回答错误的则根据错误的分类策略B进行系统自动处置。如图3,所述策略B包括:判断回答错误的类型属于“回答错误”还是“不能回答”;若属于“不能回答”类型,则增加对应的知识图谱或者QA对;若属于“回答错误”类型,则修正所述知识图谱关系或者修正所述QA对。
通过循环执行该步骤,模型A中的每个子模型,根据自己接收的错误进行重新训练和调整,实现对模型的质量检测以及补充、修正,从而使得知识图谱数据库和FAQ数据库在迭代中分级。
需要特别说明的是,所述步骤6还包括步骤603:统计所述问答模型的准确率,直至所述准确率达到上限标准。在一个实施例中,所述上线标准为:90%
本方法的一个完整的示例:例如1000个问题里面,审核人员判断900个是模型回答正确的,则准确率90%。
上述各实施例仅是本发明的优选实施方式,在本技术领域内,凡是基于本发明技术方案上的变化和改进,不应排除在本发明的保护范围之外。
Claims (10)
1.一种用于问答知识库的自我完善的方法,包括如下步骤:
步骤1,设置待完善的问答知识库;
步骤2,设置用于所述问答知识库的预定的问题和对应的正确答案;
步骤3,对所述问答知识库提出预定的问题并将输出的答案储存;4;
步骤4,将所述对应的正确答案与所述输出的答案进行比对,对所述比对的结果进行划分并做标记;
步骤5,根据所述标记完善所述问答知识库。
2.根据权利要求1所述的用于问答知识库的自我完善的方法,其特征在于,在所述步骤4中,标记出两种错误中的一个或者多个:问题分类错误和回答错误。
3.根据权利要求2所述的用于问答知识库的自我完善的方法,其特征在于,所述回答错误包括不能输出答案和所述输出的答案错误。
4.根据权利要求3所述的用于问答知识库的自我完善的方法,其特征在于,根据所述步骤4中标记出的错误,步骤5还包括对应的步骤51打回给所述问答知识库和/或者增加知识图谱和FAQ和/或者修正知识图谱和修正FAQ。
5.根据权利要求4所述的用于问答知识库的自我完善的方法,其特征在于,所述步骤5还包括步骤52,根据所述比对得出准确率,以确定是否达到完善的标准。
6.根据权利要求5所述的用于问答知识库的自我完善的方法,其特征在于,在所述步骤1之前还包括步骤001,对所述待完善的问答知识库进行初步的质量校验和审核。
7.根据权利要求6所述的用于问答知识库的自我完善的方法,其特征在于,所述问答知识库为FAQ与知识图谱彼此融合的问答知识库。
8.根据权利要求7所述的用于问答知识库的自我完善的方法,其特征在于,在所述步骤001之后还包括步骤002,针对回答策略进行训练。
9.根据权利要求8所述的用于问答知识库的自我完善的方法,其特征在于,所述针对回答策略进行的训练包括设置知识图谱和FAQ各自的优先级,针对所选择的知识图谱或者FAQ进行匹配的表征量的筛选,然后生成所述待完善的问答知识库,用于接下来的步骤。
10.一种问答知识库装置,包括对应于根据权利要求9所述用于问答知识库的自我完善的方法中的各步骤的模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111488405.0A CN114238598A (zh) | 2021-12-07 | 2021-12-07 | 一种问答系统及其标注、审核与模型训练的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111488405.0A CN114238598A (zh) | 2021-12-07 | 2021-12-07 | 一种问答系统及其标注、审核与模型训练的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114238598A true CN114238598A (zh) | 2022-03-25 |
Family
ID=80753874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111488405.0A Pending CN114238598A (zh) | 2021-12-07 | 2021-12-07 | 一种问答系统及其标注、审核与模型训练的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114238598A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975395A (zh) * | 2023-09-22 | 2023-10-31 | 安徽淘云科技股份有限公司 | 错误反馈数据的处理方法、装置、设备以及介质 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073687A (zh) * | 2010-12-21 | 2011-05-25 | 上海莱希信息科技有限公司 | 通过文本倾向性分析鉴别客户服务质量的方法和装置 |
CN104424290A (zh) * | 2013-09-02 | 2015-03-18 | 佳能株式会社 | 基于语音的问答系统和用于交互式语音系统的方法 |
CN105893476A (zh) * | 2016-03-29 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、知识库优化方法及装置、智能知识库 |
CN108717468A (zh) * | 2018-06-11 | 2018-10-30 | 泰康保险集团股份有限公司 | 一种数据更新方法、装置、介质和电子设备 |
CN109359182A (zh) * | 2018-10-08 | 2019-02-19 | 网宿科技股份有限公司 | 一种应答方法及装置 |
CN109545018A (zh) * | 2018-10-11 | 2019-03-29 | 深圳市甄学智慧数据有限公司 | 信息处理方法及装置 |
CN109817046A (zh) * | 2019-01-23 | 2019-05-28 | 广东小天才科技有限公司 | 一种基于家教设备的学习辅助方法及家教设备 |
CN110019688A (zh) * | 2019-01-23 | 2019-07-16 | 艾肯特公司 | 对机器人进行训练的方法 |
CN110020010A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN110289101A (zh) * | 2019-07-02 | 2019-09-27 | 京东方科技集团股份有限公司 | 一种计算机设备、系统及可读存储介质 |
CN110310627A (zh) * | 2019-06-18 | 2019-10-08 | 浙江百应科技有限公司 | 一种用于检测真人用户的方法及系统 |
CN110727779A (zh) * | 2019-10-16 | 2020-01-24 | 信雅达系统工程股份有限公司 | 基于多模型融合的问答方法及系统 |
CN110909140A (zh) * | 2019-11-13 | 2020-03-24 | 国网江苏省电力有限公司电力科学研究院 | 一种图谱问答与检索问答结合的中枢路由方法及装置 |
CN111090736A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN111095234A (zh) * | 2017-09-15 | 2020-05-01 | 国际商业机器公司 | 训练数据更新 |
CN111858876A (zh) * | 2020-05-14 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种知识库的生成方法、文本查找方法和装置 |
CN112287081A (zh) * | 2020-03-16 | 2021-01-29 | 北京来也网络科技有限公司 | 结合rpa和ai的问答知识库的更新方法、装置、设备及介质 |
CN112765233A (zh) * | 2021-01-07 | 2021-05-07 | 湖南新云网科技有限公司 | 一种排列组合教学交互的方法、装置及教师终端 |
-
2021
- 2021-12-07 CN CN202111488405.0A patent/CN114238598A/zh active Pending
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073687A (zh) * | 2010-12-21 | 2011-05-25 | 上海莱希信息科技有限公司 | 通过文本倾向性分析鉴别客户服务质量的方法和装置 |
CN104424290A (zh) * | 2013-09-02 | 2015-03-18 | 佳能株式会社 | 基于语音的问答系统和用于交互式语音系统的方法 |
CN105893476A (zh) * | 2016-03-29 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 智能问答方法、知识库优化方法及装置、智能知识库 |
CN111095234A (zh) * | 2017-09-15 | 2020-05-01 | 国际商业机器公司 | 训练数据更新 |
CN110020010A (zh) * | 2017-10-10 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置及电子设备 |
CN108717468A (zh) * | 2018-06-11 | 2018-10-30 | 泰康保险集团股份有限公司 | 一种数据更新方法、装置、介质和电子设备 |
CN109359182A (zh) * | 2018-10-08 | 2019-02-19 | 网宿科技股份有限公司 | 一种应答方法及装置 |
CN109545018A (zh) * | 2018-10-11 | 2019-03-29 | 深圳市甄学智慧数据有限公司 | 信息处理方法及装置 |
CN111090736A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 问答模型的训练方法、问答方法、装置及计算机存储介质 |
CN110019688A (zh) * | 2019-01-23 | 2019-07-16 | 艾肯特公司 | 对机器人进行训练的方法 |
CN109817046A (zh) * | 2019-01-23 | 2019-05-28 | 广东小天才科技有限公司 | 一种基于家教设备的学习辅助方法及家教设备 |
CN110310627A (zh) * | 2019-06-18 | 2019-10-08 | 浙江百应科技有限公司 | 一种用于检测真人用户的方法及系统 |
CN110289101A (zh) * | 2019-07-02 | 2019-09-27 | 京东方科技集团股份有限公司 | 一种计算机设备、系统及可读存储介质 |
CN110727779A (zh) * | 2019-10-16 | 2020-01-24 | 信雅达系统工程股份有限公司 | 基于多模型融合的问答方法及系统 |
CN110909140A (zh) * | 2019-11-13 | 2020-03-24 | 国网江苏省电力有限公司电力科学研究院 | 一种图谱问答与检索问答结合的中枢路由方法及装置 |
CN112287081A (zh) * | 2020-03-16 | 2021-01-29 | 北京来也网络科技有限公司 | 结合rpa和ai的问答知识库的更新方法、装置、设备及介质 |
CN111858876A (zh) * | 2020-05-14 | 2020-10-30 | 北京捷通华声科技股份有限公司 | 一种知识库的生成方法、文本查找方法和装置 |
CN112765233A (zh) * | 2021-01-07 | 2021-05-07 | 湖南新云网科技有限公司 | 一种排列组合教学交互的方法、装置及教师终端 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975395A (zh) * | 2023-09-22 | 2023-10-31 | 安徽淘云科技股份有限公司 | 错误反馈数据的处理方法、装置、设备以及介质 |
CN116975395B (zh) * | 2023-09-22 | 2024-01-23 | 安徽淘云科技股份有限公司 | 错误反馈数据的处理方法、装置、设备以及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | A sequential cognitive diagnosis model for polytomous responses | |
CN109635108B (zh) | 一种基于人机交互的远程监督实体关系抽取方法 | |
EP4075281A1 (en) | Ann-based program test method and test system, and application | |
CN112508334A (zh) | 融合认知特性及试题文本信息的个性化组卷方法及系统 | |
JP2020047234A (ja) | データ評価方法、装置、機器及び読み取り可能な記憶媒体 | |
CN110288007A (zh) | 数据标注的方法、装置及电子设备 | |
CN110471936A (zh) | 一种混合式sql自动评分方法 | |
CN114913729A (zh) | 一种选题方法、装置、计算机设备和存储介质 | |
CN110990702A (zh) | 一种面向儿童自主阅读的推荐方法、客户端及服务器 | |
CN113761444A (zh) | 基于代码评分的教程推荐方法、教程推荐装置及终端设备 | |
CN114238598A (zh) | 一种问答系统及其标注、审核与模型训练的方法 | |
CN106980960B (zh) | 一种知识点体系的制作方法及装置 | |
CN115798020A (zh) | 一种基于人工智能的中小学生学习投入度检测方法与系统 | |
CN110633072B (zh) | 一种可供自动批改的编程训练题目构造方法及装置 | |
CN110059705A (zh) | 一种基于建模的ocr识别结果判决方法和设备 | |
CN108009537B (zh) | 一种识别问卷批改得分的方法 | |
CN107622283A (zh) | 一种基于深度学习的增量式物体识别方法 | |
CN114820618B (zh) | 瑕疵检测模型的训练方法、装置、设备及存储介质 | |
CN114564942B (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
Sreevidhya et al. | Short descriptive answer evaluation using word-embedding techniques | |
CN108875060A (zh) | 一种网站识别方法及识别系统 | |
Perez et al. | Implementation of a test constructor utilizing a calibrated item bank using 3PL-IRT model | |
CN111353553A (zh) | 清洗错误标注数据的方法、装置、计算机设备及存储介质 | |
Wang et al. | Student Mastery or AI Deception? Analyzing ChatGPT's Assessment Proficiency and Evaluating Detection Strategies | |
US20240078464A1 (en) | Passive outlier-tolerant and active outlier-tolerant learning method with abnormal samples and system thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220325 |