CN112905785A - 基于电商对话语料的问答知识库构建方法 - Google Patents

基于电商对话语料的问答知识库构建方法 Download PDF

Info

Publication number
CN112905785A
CN112905785A CN202110159970.6A CN202110159970A CN112905785A CN 112905785 A CN112905785 A CN 112905785A CN 202110159970 A CN202110159970 A CN 202110159970A CN 112905785 A CN112905785 A CN 112905785A
Authority
CN
China
Prior art keywords
question
answer
questions
answers
knowledge base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110159970.6A
Other languages
English (en)
Inventor
李睿琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Tanyu Technology Co ltd
Original Assignee
Hangzhou Weier Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Weier Network Technology Co ltd filed Critical Hangzhou Weier Network Technology Co ltd
Priority to CN202110159970.6A priority Critical patent/CN112905785A/zh
Publication of CN112905785A publication Critical patent/CN112905785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于电商对话语料的问答知识库构建方法,包含以下步骤:获取历史问答数据;从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案;将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;将匹配度最高的候选答案作为与其相对应的问题的最佳答案;将最佳答案和与其相对应的问题组成问答对,存入问答知识库。本发明提供的基于电商对话语料的问答知识库构建方法利用店铺对话历史语料,自动构建问答对,并能保持较高准确率,且当有更好的人工答案出现时,也可以自动对问答对进行更新以使问题持续保持具有最优答案。

Description

基于电商对话语料的问答知识库构建方法
技术领域
本发明涉及一种基于电商对话语料的问答知识库构建方法。
背景技术
现阶段,智能问答依赖问答知识库构建,构建的核心方式是人工构建典型问答对,用相似度匹配的方法找到对应问题,提取对应答案。这种方法需要人工构建,耗时耗力,不易全面,无法自动应对答案时效问题。
发明内容
本发明提供了一种基于电商对话语料的问答知识库构建方法,采用如下的技术方案:
一种基于电商对话语料的问答知识库构建方法,包含以下步骤:
获取历史问答数据;
从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案;
将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;
对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;
将匹配度最高的候选答案作为与其相对应的问题的最佳答案;
将最佳答案和与其相对应的问题组成问答对,存入问答知识库。
进一步地,获取历史问答数据的具体方法为:
收集同一店铺的在预设时间内的问答数据。
进一步地,预设时间为15天至40天。
进一步地,预设时间为30天。
进一步地,在从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案中,将针对用户提出的问题的若干条回复作为该问题的答案。
进一步地,将针对用户提出的问题的4条回复作为该问题的答案。
进一步地,通过排序模型对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序。
进一步地,在对排序模型进行训练的过程中构建用于排序的负例。
进一步地,对于历史问答数据中的所有问题中的特定问题,利用模糊匹配找到对应的答案。
本发明的有益之处还在于所提供的基于电商对话语料的问答知识库构建方法利用店铺对话历史语料,自动构建问答对,并能保持较高准确率,且当有更好的人工答案出现时,也可以自动对问答对进行更新以使问题持续保持具有最优答案。
将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集,可以更好地考虑周围的上下文信息,选出最佳的匹配答案。
收集同一店铺的在预设时间内的问答数据,能够保持店铺问答语料的独特性和时效性。
附图说明
图1是本发明的基于电商对话语料的问答知识库构建方法的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明揭示一种基于电商对话语料的问答知识库构建方法,包含以下步骤:获取历史问答数据;从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案;将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;将匹配度最高的候选答案作为与其相对应的问题的最佳答案;将最佳答案和与其相对应的问题组成问答对,存入问答知识库。
本方案的基于电商对话语料的问答知识库构建方法利用店铺对话历史语料,自动构建问答对,并能保持较高准确率。将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集,可以更好地考虑周围的上下文信息,选出最佳的匹配答案。
第一步,获取历史问答数据是指:收集同一店铺的平台中输入的所有问题数据和答案数据。
第二步,从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案是指:在获取历史问答数据后,对历史问答数据进行处理,识别出所有的问题数据,然后针对所有的问题数据中的每个问题识别出与该问题相对应的答案。
第三步,将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集是指:将所有问题进行归类分为若干个相同的问题,然后找出与该相同的问题对应的所有答案,并将该所有答案定义为该相同的问题的候选答案集。
第四步,对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序是指:针对相同的问题,与其对应的候选答案集中具有多个候选答案,利用模型对该相同的问题和与其对应的多个候选答案进行匹配度排序。
第五步,将匹配度最高的候选答案作为与其相对应的问题的最佳答案是指:在利用模型对该相同的问题和与其对应的多个候选答案进行匹配度排序后,将匹配度最高的候选答案定义为该相同的问题的最佳答案。
第六步,将最佳答案和与其相对应的问题组成问答对存入问答知识库是指:在找出一个相同的问题的最佳答案后,将该最佳答案与该相同的问题组成一个问答对存入问答知识库中。通过这样的方式,店铺的平台中再次输入该相同的问题后,问答知识库通过与该相同的问题相对应的问答对直接输出最佳的答案。
作为一种具体的实施方式,获取历史问答数据的具体方法为:收集同一店铺的在预设时间内的问答数据。通过收集同一店铺的在预设时间内的问答数据,能够保持店铺问答语料的独特性和时效性。当有更好的人工答案出现时,也可以自动对问答对进行更新以使问题持续保持具有最优答案。
优选的,将收集同一店铺的在预设时间内的问答数据中的预设时间设置为15天至40天。这样能够实时根据店铺平台中输入的问题和答案更新问答对,以使问答对能够保持店铺问答语料的独特性和时效性,能够持续保持具有最优答案。
具体地,将收集同一店铺的在预设时间内的问答数据中的预设时间设置为30天。
作为一种优选的实施方式,在从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案中,将针对用户提出的问题的若干条回复作为该问题的答案。这样能够通过结合上下文的语意,提高最优答案的准确性。
具体地,将针对用户提出的问题的4条回复作为该问题的答案。
作为一种优选的实施方式,通过排序模型对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序。
进一步地,在对排序模型进行训练的过程中需要构建用于排序的负例,如利用上下文以及不同比例相似度来构建负样本。通过这样的方式能够提高排序模型匹配最佳答案的精确度。
作为一种优选的实施方式,对于历史问答数据中的所有问题中的特定问题,利用模糊匹配找到对应的答案。也就是说,在历史问答数据中存在一些特定问题,针对该特定问题在答案数据中识别不到明确的答案。这样情况下,采用模糊匹配的方式对该特定问题与历史问答数据中的所有答案进行匹配,从而找到最适合该特定问题的答案。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (9)

1.一种基于电商对话语料的问答知识库构建方法,其特征在于,包含以下步骤:
获取历史问答数据;
从所述历史问答数据中识别出用户提出的所有问题以及每个所述问题所对应的答案;
将所有所述问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;
对所述候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;
将匹配度最高的所述候选答案作为与其相对应的问题的最佳答案;
将所述最佳答案和与其相对应的问题组成问答对,存入问答知识库。
2.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
所述获取历史问答数据的具体方法为:
收集同一店铺的在预设时间内的所述问答数据。
3.根据权利要求2所述的基于电商对话语料的问答知识库构建方法,其特征在于,
所述预设时间为15天至40天。
4.根据权利要求3所述的基于电商对话语料的问答知识库构建方法,其特征在于,
所述预设时间为30天。
5.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
在所述从所述历史问答数据中识别出用户提出的所有问题以及每个所述问题所对应的答案中,将针对用户提出的问题的若干条回复作为该问题的答案。
6.根据权利要求5所述的基于电商对话语料的问答知识库构建方法,其特征在于,
将针对用户提出的问题的4条回复作为该问题的答案。
7.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
通过排序模型对所述候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序。
8.根据权利要求7所述的基于电商对话语料的问答知识库构建方法,其特征在于,
在对所述排序模型进行训练的过程中构建用于排序的负例。
9.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
对于所述历史问答数据中的所有问题中的特定问题,利用模糊匹配找到对应的答案。
CN202110159970.6A 2021-02-05 2021-02-05 基于电商对话语料的问答知识库构建方法 Pending CN112905785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110159970.6A CN112905785A (zh) 2021-02-05 2021-02-05 基于电商对话语料的问答知识库构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110159970.6A CN112905785A (zh) 2021-02-05 2021-02-05 基于电商对话语料的问答知识库构建方法

Publications (1)

Publication Number Publication Date
CN112905785A true CN112905785A (zh) 2021-06-04

Family

ID=76122707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110159970.6A Pending CN112905785A (zh) 2021-02-05 2021-02-05 基于电商对话语料的问答知识库构建方法

Country Status (1)

Country Link
CN (1) CN112905785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051115A1 (zh) * 2022-09-05 2024-03-14 苏州元脑智能科技有限公司 一种文本生成方法、装置、设备及非易失性可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076204A1 (en) * 2013-02-06 2017-03-16 International Business Machines Corporation Natural language question expansion and extraction
CN106570708A (zh) * 2016-10-31 2017-04-19 厦门快商通科技股份有限公司 一种智能客服知识库的管理方法及系统
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170076204A1 (en) * 2013-02-06 2017-03-16 International Business Machines Corporation Natural language question expansion and extraction
CN106570708A (zh) * 2016-10-31 2017-04-19 厦门快商通科技股份有限公司 一种智能客服知识库的管理方法及系统
CN110019149A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种客服知识库的建立方法、装置及设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024051115A1 (zh) * 2022-09-05 2024-03-14 苏州元脑智能科技有限公司 一种文本生成方法、装置、设备及非易失性可读存储介质

Similar Documents

Publication Publication Date Title
CN110162611B (zh) 一种智能客服应答方法及系统
CN108153876B (zh) 智能问答方法及系统
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN111445200A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN113360616A (zh) 自动问答处理方法、装置、设备及存储介质
CN111177310A (zh) 电力服务机器人智能场景会话方法及装置
CN111125316B (zh) 一种融合多损失函数及注意力机制的知识库问答方法
CN106503123A (zh) 一种基于计算机云数据的深度学习智能应答系统
CN116166782A (zh) 一种基于深度学习的智能问答方法
CN110992988A (zh) 一种基于领域对抗的语音情感识别方法及装置
CN113468891A (zh) 文本处理方法以及装置
CN112905785A (zh) 基于电商对话语料的问答知识库构建方法
CN112015875B (zh) 在线客服助手的构建方法
CN111400479A (zh) 针对多轮对话的问题识别方法和装置
CN111625631A (zh) 一种选择题选项生成方法
CN114328846B (zh) 一种用于高校政策咨询的智能客服应答系统及方法
CN108763411B (zh) 一种结合短文本聚类和推荐机制的主观题批阅系统及方法
CN110825930A (zh) 基于人工智能自动识别社区问答论坛中的正确回答的方法
CN110334080A (zh) 一种实现自主学习的知识库构建方法
CN114385798A (zh) 一种基于主动学习的问答方法、系统、设备及介质
CN114973041A (zh) 一种基于自我对比学习克服视觉问答的语言先验方法
CN114580407A (zh) 一种基于最大熵的园区产业招商智能咨询方法及系统
CN112818102A (zh) 基于上下文的faq知识库的快速问答方法
CN116860950B (zh) 一种术语对话机器人语料更新方法及系统
CN116610774B (zh) 一种高效率的智能网上阅卷辅助方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230412

Address after: 104058, No. 2-10, No. 311 Huangpu Avenue Middle, Tianhe District, Guangzhou City, Guangdong Province, 510000

Applicant after: Guangzhou Tanyu Technology Co.,Ltd.

Address before: 601-5, 1382 Wenyi West Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province

Applicant before: Hangzhou Weier Network Technology Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604

RJ01 Rejection of invention patent application after publication