CN112905785A - 基于电商对话语料的问答知识库构建方法 - Google Patents
基于电商对话语料的问答知识库构建方法 Download PDFInfo
- Publication number
- CN112905785A CN112905785A CN202110159970.6A CN202110159970A CN112905785A CN 112905785 A CN112905785 A CN 112905785A CN 202110159970 A CN202110159970 A CN 202110159970A CN 112905785 A CN112905785 A CN 112905785A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- questions
- answers
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000009411 base construction Methods 0.000 title claims abstract description 8
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于电商对话语料的问答知识库构建方法,包含以下步骤:获取历史问答数据;从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案;将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;将匹配度最高的候选答案作为与其相对应的问题的最佳答案;将最佳答案和与其相对应的问题组成问答对,存入问答知识库。本发明提供的基于电商对话语料的问答知识库构建方法利用店铺对话历史语料,自动构建问答对,并能保持较高准确率,且当有更好的人工答案出现时,也可以自动对问答对进行更新以使问题持续保持具有最优答案。
Description
技术领域
本发明涉及一种基于电商对话语料的问答知识库构建方法。
背景技术
现阶段,智能问答依赖问答知识库构建,构建的核心方式是人工构建典型问答对,用相似度匹配的方法找到对应问题,提取对应答案。这种方法需要人工构建,耗时耗力,不易全面,无法自动应对答案时效问题。
发明内容
本发明提供了一种基于电商对话语料的问答知识库构建方法,采用如下的技术方案:
一种基于电商对话语料的问答知识库构建方法,包含以下步骤:
获取历史问答数据;
从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案;
将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;
对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;
将匹配度最高的候选答案作为与其相对应的问题的最佳答案;
将最佳答案和与其相对应的问题组成问答对,存入问答知识库。
进一步地,获取历史问答数据的具体方法为:
收集同一店铺的在预设时间内的问答数据。
进一步地,预设时间为15天至40天。
进一步地,预设时间为30天。
进一步地,在从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案中,将针对用户提出的问题的若干条回复作为该问题的答案。
进一步地,将针对用户提出的问题的4条回复作为该问题的答案。
进一步地,通过排序模型对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序。
进一步地,在对排序模型进行训练的过程中构建用于排序的负例。
进一步地,对于历史问答数据中的所有问题中的特定问题,利用模糊匹配找到对应的答案。
本发明的有益之处还在于所提供的基于电商对话语料的问答知识库构建方法利用店铺对话历史语料,自动构建问答对,并能保持较高准确率,且当有更好的人工答案出现时,也可以自动对问答对进行更新以使问题持续保持具有最优答案。
将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集,可以更好地考虑周围的上下文信息,选出最佳的匹配答案。
收集同一店铺的在预设时间内的问答数据,能够保持店铺问答语料的独特性和时效性。
附图说明
图1是本发明的基于电商对话语料的问答知识库构建方法的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
如图1所示,本发明揭示一种基于电商对话语料的问答知识库构建方法,包含以下步骤:获取历史问答数据;从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案;将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;将匹配度最高的候选答案作为与其相对应的问题的最佳答案;将最佳答案和与其相对应的问题组成问答对,存入问答知识库。
本方案的基于电商对话语料的问答知识库构建方法利用店铺对话历史语料,自动构建问答对,并能保持较高准确率。将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集,可以更好地考虑周围的上下文信息,选出最佳的匹配答案。
第一步,获取历史问答数据是指:收集同一店铺的平台中输入的所有问题数据和答案数据。
第二步,从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案是指:在获取历史问答数据后,对历史问答数据进行处理,识别出所有的问题数据,然后针对所有的问题数据中的每个问题识别出与该问题相对应的答案。
第三步,将所有问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集是指:将所有问题进行归类分为若干个相同的问题,然后找出与该相同的问题对应的所有答案,并将该所有答案定义为该相同的问题的候选答案集。
第四步,对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序是指:针对相同的问题,与其对应的候选答案集中具有多个候选答案,利用模型对该相同的问题和与其对应的多个候选答案进行匹配度排序。
第五步,将匹配度最高的候选答案作为与其相对应的问题的最佳答案是指:在利用模型对该相同的问题和与其对应的多个候选答案进行匹配度排序后,将匹配度最高的候选答案定义为该相同的问题的最佳答案。
第六步,将最佳答案和与其相对应的问题组成问答对存入问答知识库是指:在找出一个相同的问题的最佳答案后,将该最佳答案与该相同的问题组成一个问答对存入问答知识库中。通过这样的方式,店铺的平台中再次输入该相同的问题后,问答知识库通过与该相同的问题相对应的问答对直接输出最佳的答案。
作为一种具体的实施方式,获取历史问答数据的具体方法为:收集同一店铺的在预设时间内的问答数据。通过收集同一店铺的在预设时间内的问答数据,能够保持店铺问答语料的独特性和时效性。当有更好的人工答案出现时,也可以自动对问答对进行更新以使问题持续保持具有最优答案。
优选的,将收集同一店铺的在预设时间内的问答数据中的预设时间设置为15天至40天。这样能够实时根据店铺平台中输入的问题和答案更新问答对,以使问答对能够保持店铺问答语料的独特性和时效性,能够持续保持具有最优答案。
具体地,将收集同一店铺的在预设时间内的问答数据中的预设时间设置为30天。
作为一种优选的实施方式,在从历史问答数据中识别出用户提出的所有问题以及每个问题所对应的答案中,将针对用户提出的问题的若干条回复作为该问题的答案。这样能够通过结合上下文的语意,提高最优答案的准确性。
具体地,将针对用户提出的问题的4条回复作为该问题的答案。
作为一种优选的实施方式,通过排序模型对候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序。
进一步地,在对排序模型进行训练的过程中需要构建用于排序的负例,如利用上下文以及不同比例相似度来构建负样本。通过这样的方式能够提高排序模型匹配最佳答案的精确度。
作为一种优选的实施方式,对于历史问答数据中的所有问题中的特定问题,利用模糊匹配找到对应的答案。也就是说,在历史问答数据中存在一些特定问题,针对该特定问题在答案数据中识别不到明确的答案。这样情况下,采用模糊匹配的方式对该特定问题与历史问答数据中的所有答案进行匹配,从而找到最适合该特定问题的答案。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
Claims (9)
1.一种基于电商对话语料的问答知识库构建方法,其特征在于,包含以下步骤:
获取历史问答数据;
从所述历史问答数据中识别出用户提出的所有问题以及每个所述问题所对应的答案;
将所有所述问题中的相同的问题所对应的所有答案作为该相同的问题的候选答案集;
对所述候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序;
将匹配度最高的所述候选答案作为与其相对应的问题的最佳答案;
将所述最佳答案和与其相对应的问题组成问答对,存入问答知识库。
2.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
所述获取历史问答数据的具体方法为:
收集同一店铺的在预设时间内的所述问答数据。
3.根据权利要求2所述的基于电商对话语料的问答知识库构建方法,其特征在于,
所述预设时间为15天至40天。
4.根据权利要求3所述的基于电商对话语料的问答知识库构建方法,其特征在于,
所述预设时间为30天。
5.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
在所述从所述历史问答数据中识别出用户提出的所有问题以及每个所述问题所对应的答案中,将针对用户提出的问题的若干条回复作为该问题的答案。
6.根据权利要求5所述的基于电商对话语料的问答知识库构建方法,其特征在于,
将针对用户提出的问题的4条回复作为该问题的答案。
7.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
通过排序模型对所述候选答案集中的所有候选答案和与其相对应的问题进行匹配度排序。
8.根据权利要求7所述的基于电商对话语料的问答知识库构建方法,其特征在于,
在对所述排序模型进行训练的过程中构建用于排序的负例。
9.根据权利要求1所述的基于电商对话语料的问答知识库构建方法,其特征在于,
对于所述历史问答数据中的所有问题中的特定问题,利用模糊匹配找到对应的答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159970.6A CN112905785A (zh) | 2021-02-05 | 2021-02-05 | 基于电商对话语料的问答知识库构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110159970.6A CN112905785A (zh) | 2021-02-05 | 2021-02-05 | 基于电商对话语料的问答知识库构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112905785A true CN112905785A (zh) | 2021-06-04 |
Family
ID=76122707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110159970.6A Pending CN112905785A (zh) | 2021-02-05 | 2021-02-05 | 基于电商对话语料的问答知识库构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112905785A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051115A1 (zh) * | 2022-09-05 | 2024-03-14 | 苏州元脑智能科技有限公司 | 一种文本生成方法、装置、设备及非易失性可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170076204A1 (en) * | 2013-02-06 | 2017-03-16 | International Business Machines Corporation | Natural language question expansion and extraction |
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN110019149A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种客服知识库的建立方法、装置及设备 |
-
2021
- 2021-02-05 CN CN202110159970.6A patent/CN112905785A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170076204A1 (en) * | 2013-02-06 | 2017-03-16 | International Business Machines Corporation | Natural language question expansion and extraction |
CN106570708A (zh) * | 2016-10-31 | 2017-04-19 | 厦门快商通科技股份有限公司 | 一种智能客服知识库的管理方法及系统 |
CN110019149A (zh) * | 2019-01-30 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 一种客服知识库的建立方法、装置及设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024051115A1 (zh) * | 2022-09-05 | 2024-03-14 | 苏州元脑智能科技有限公司 | 一种文本生成方法、装置、设备及非易失性可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162611B (zh) | 一种智能客服应答方法及系统 | |
CN108153876B (zh) | 智能问答方法及系统 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN111046133A (zh) | 基于图谱化知识库的问答方法、设备、存储介质及装置 | |
CN111445200A (zh) | 基于人工智能的面试方法、装置、计算机设备及存储介质 | |
CN106649742A (zh) | 数据库维护方法和装置 | |
CN113360616A (zh) | 自动问答处理方法、装置、设备及存储介质 | |
CN111177310A (zh) | 电力服务机器人智能场景会话方法及装置 | |
CN111125316B (zh) | 一种融合多损失函数及注意力机制的知识库问答方法 | |
CN106503123A (zh) | 一种基于计算机云数据的深度学习智能应答系统 | |
CN116166782A (zh) | 一种基于深度学习的智能问答方法 | |
CN113468891A (zh) | 文本处理方法以及装置 | |
CN110992988A (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
CN112905785A (zh) | 基于电商对话语料的问答知识库构建方法 | |
CN112015875B (zh) | 在线客服助手的构建方法 | |
CN111400479A (zh) | 针对多轮对话的问题识别方法和装置 | |
CN111625631A (zh) | 一种选择题选项生成方法 | |
CN108763411B (zh) | 一种结合短文本聚类和推荐机制的主观题批阅系统及方法 | |
CN110825930A (zh) | 基于人工智能自动识别社区问答论坛中的正确回答的方法 | |
CN114708127B (zh) | 一种学生积分制综合考核方法及系统 | |
CN114385798A (zh) | 一种基于主动学习的问答方法、系统、设备及介质 | |
CN114973041A (zh) | 一种基于自我对比学习克服视觉问答的语言先验方法 | |
CN112818102A (zh) | 基于上下文的faq知识库的快速问答方法 | |
CN113609265A (zh) | 基于知识图谱面向自主学习的pec课程问答方法及机器人 | |
CN116860950B (zh) | 一种术语对话机器人语料更新方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230412 Address after: 104058, No. 2-10, No. 311 Huangpu Avenue Middle, Tianhe District, Guangzhou City, Guangdong Province, 510000 Applicant after: Guangzhou Tanyu Technology Co.,Ltd. Address before: 601-5, 1382 Wenyi West Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province Applicant before: Hangzhou Weier Network Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210604 |
|
RJ01 | Rejection of invention patent application after publication |