CN110413761A - 一种基于知识库的领域性单独对话的方法 - Google Patents

一种基于知识库的领域性单独对话的方法 Download PDF

Info

Publication number
CN110413761A
CN110413761A CN201910719092.1A CN201910719092A CN110413761A CN 110413761 A CN110413761 A CN 110413761A CN 201910719092 A CN201910719092 A CN 201910719092A CN 110413761 A CN110413761 A CN 110413761A
Authority
CN
China
Prior art keywords
knowledge
core word
sentence
individually
territoriality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910719092.1A
Other languages
English (en)
Inventor
李百成
马驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ho Whale Cloud Computing Polytron Technologies Inc
Original Assignee
Ho Whale Cloud Computing Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ho Whale Cloud Computing Polytron Technologies Inc filed Critical Ho Whale Cloud Computing Polytron Technologies Inc
Priority to CN201910719092.1A priority Critical patent/CN110413761A/zh
Publication of CN110413761A publication Critical patent/CN110413761A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

一种基于知识库的领域性单独对话的方法,包括以下步骤:知识库构建;接收用户发送的语句;根据算法流程将用户语句与知识库相关知识匹配;返回相似度最高的知识答案;知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。本发明相对于传统的基于知识库的对话方法,具有精度高、速度快等优点。

Description

一种基于知识库的领域性单独对话的方法
技术领域
本发明属于人机问答的数据处理方法,尤其涉及一种基于知识库的领域性单独对话的方法。
背景技术
随着深度学习等AI技术的发展,越来越多的工作可以用AI来完成,从而降低人工的投入,例如智能客服、电话营销、智能催缴等。而这些场景的应用都需要依赖文本技术来实现,自然语言理解能力为这些技术提供底层的支持,帮助使用者更好的利用AI技术来辅助企业运营。智能客服的本质是对话系统,它包含了许多从基础科学到深度学习的方法与知识,是通过结合机器学习、人工智能自然语言理解方向的算法和系统调度处理等方法,实现让机器人理解并生成对话的产物。随着技术的发展,多种不同类型的对话机器人服务于各行各业。技术方需针对不用类型的用户与场景选用合适的机器人类型。目前业内普遍有四种类型的对话机器人:检索型单轮对话机器人、知识图谱型机器人、任务型多轮对话机器人和闲聊型机器人。其中,检索型对话机器人的应用最为广泛,它的实现也相对简单。
发明内容
本发明提出一种基于知识库的领域性单独对话的方法,具有匹配精度高、速度快等优点。
本发明的技术方案:一种基于知识库的领域性单独对话的方法,括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
进一步的改进在于,所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,所述的核心词同义词为核心词的同义词,同义词可以有多个,同义词不能是已存在的核心词,所述的标准问句又称为知识标题,是一条知识的标准问法,所述的答案对应知识,每条知识只有一条答案。
进一步的改进在于,所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
进一步的改进在于,所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选区的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
进一步的改进在于,所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
进一步的改进在于,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系。
进一步的改进在于,所述的主模型分为计算注意力、比较和组合三个阶段。
进一步的改进在于,所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分 为原DA模型的得分 为句子相似度得分; 为 变量。
进一步的改进在于,所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
本发明相对于传统的基于知识库的对话方法,具有以下优点:
精度高,采用注意力机制模型结合句子相似度的方式能提高匹配的效果,减少过拟合,具有很好的泛化能力。速度快,该方法在保证准确率的情况下,能大大地减少推理的速度,能适应线上多并发的情况。通过核心词概念,可以很好的找出相关知识、过滤不相关的知识,减少计算量。
附图说明
图1为本发明所述的算法处理流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明做进一步的描述。
一种基于知识库的领域性单独对话的方法,包括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案, s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,如:“酒店”;核心词同义词为核心词的同义词,同义词可以有多个,但同义词不能是已存在的核心词,如:“旅馆、旅店”;标准问句又称为知识标题,是一条知识的标准问法,如:“度假村里有几家酒店”;相似问句为与标准问句的意思相近的问句,如:“度假村有多少酒店”。答案对应知识,每条知识只有一条答案,如:“度假村共有三家酒店”。
所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
本发明采用的精检索模型结构为主模型(以下简称DA)选自《A DecomposableAttention Model for Natural Language Inference》,该模型擅长实现自然语言推断,其实就是文本蕴含任务,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系,一般分为蕴含关系和矛盾关系,蕴含关系表示从前提中可以推断出推断假说文本;矛盾关系即推断文本与前提文本矛盾。
所述的主模型分为计算注意力、比较和组合三个阶段。
所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分 为原DA模型的得分 为句子相似度得分;为变 量。
所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
本发明相对于传统的基于知识库的对话方法,具有以下优点:精度高,采用注意力机制模型结合句子相似度的方式能提高匹配的效果,减少过拟合,具有很好的泛化能力。速度快,该方法在保证准确率的情况下,能大大地减少推理的速度,能适应线上多并发的情况。通过核心词概念,可以很好的找出相关知识、过滤不相关的知识,减少计算量。
尽管已用具体实施例来说明和描述了本发明,然而应意识到,在不背离本发明的精
神和范围的情况下可以做出许多其它的更改和修改。因此,这意味着在所附权利要求中包
括属于本发明范围内的所有这些变化和修改。

Claims (9)

1.一种基于知识库的领域性单独对话的方法,其特征在于,包括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
其中,s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
2.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,所述的核心词同义词为核心词的同义词,同义词可以有多个,同义词不能是已存在的核心词,所述的标准问句又称为知识标题,是一条知识的标准问法,所述的答案对应知识,每条知识只有一条答案。
3.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
4.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选区的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
5.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
6.根据权利要求5所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系。
7.根据权利要求6所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的主模型分为计算注意力、比较和组合三个阶段。
8.根据权利要求7所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分为原DA模型的得分为句子相似度得分;为变量。
9.根据权利要求8所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
CN201910719092.1A 2019-08-06 2019-08-06 一种基于知识库的领域性单独对话的方法 Pending CN110413761A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910719092.1A CN110413761A (zh) 2019-08-06 2019-08-06 一种基于知识库的领域性单独对话的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910719092.1A CN110413761A (zh) 2019-08-06 2019-08-06 一种基于知识库的领域性单独对话的方法

Publications (1)

Publication Number Publication Date
CN110413761A true CN110413761A (zh) 2019-11-05

Family

ID=68365886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910719092.1A Pending CN110413761A (zh) 2019-08-06 2019-08-06 一种基于知识库的领域性单独对话的方法

Country Status (1)

Country Link
CN (1) CN110413761A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581347A (zh) * 2020-04-28 2020-08-25 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN112507097A (zh) * 2020-12-17 2021-03-16 神思电子技术股份有限公司 一种提高问答系统泛化能力的方法
CN112966087A (zh) * 2021-03-15 2021-06-15 中国美术学院 一种灵感素材的智能问答系统及方法
CN113220856A (zh) * 2021-05-28 2021-08-06 天津大学 一种基于中文预训练模型的多轮对话系统
CN113590797A (zh) * 2021-08-05 2021-11-02 云上贵州大数据产业发展有限公司 一种智能运维客服系统及实现方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475008B2 (en) * 2000-02-25 2009-01-06 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US20090094286A1 (en) * 2007-10-02 2009-04-09 Lee Hans C System for Remote Access to Media, and Reaction and Survey Data From Viewers of the Media
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7475008B2 (en) * 2000-02-25 2009-01-06 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US20090094286A1 (en) * 2007-10-02 2009-04-09 Lee Hans C System for Remote Access to Media, and Reaction and Survey Data From Viewers of the Media
CN106445920A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用句义结构特征的句子相似度计算方法
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备
CN109271505A (zh) * 2018-11-12 2019-01-25 深圳智能思创科技有限公司 一种基于问题答案对的问答系统实现方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PARIKH A P, TÄCKSTRÖM O, DAS D, ET AL.: "A decomposable attention model for natural language inference", 《ARXIV PREPRINT ARXIV》 *
李浩, 孙媛: "基于词向量的英文教育文本推荐技术", 《中国教育信息化》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581347A (zh) * 2020-04-28 2020-08-25 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN111581347B (zh) * 2020-04-28 2023-07-21 中国工商银行股份有限公司 语句相似度匹配方法及装置
CN112507097A (zh) * 2020-12-17 2021-03-16 神思电子技术股份有限公司 一种提高问答系统泛化能力的方法
CN112507097B (zh) * 2020-12-17 2022-11-18 神思电子技术股份有限公司 一种提高问答系统泛化能力的方法
CN112966087A (zh) * 2021-03-15 2021-06-15 中国美术学院 一种灵感素材的智能问答系统及方法
CN112966087B (zh) * 2021-03-15 2023-10-13 中国美术学院 一种灵感素材的智能问答系统及方法
CN113220856A (zh) * 2021-05-28 2021-08-06 天津大学 一种基于中文预训练模型的多轮对话系统
CN113590797A (zh) * 2021-08-05 2021-11-02 云上贵州大数据产业发展有限公司 一种智能运维客服系统及实现方法

Similar Documents

Publication Publication Date Title
CN110413761A (zh) 一种基于知识库的领域性单独对话的方法
Mrkšić et al. Multi-domain dialog state tracking using recurrent neural networks
Lyu et al. Hybrid ranking network for text-to-sql
CN109992648A (zh) 基于词迁徙学习的深度文本匹配方法及装置
US10089364B2 (en) Item recommendation device, item recommendation method, and computer program product
CN103218436B (zh) 一种融合用户类别标签的相似问题检索方法及装置
CN109739939A (zh) 知识图谱的数据融合方法和装置
CN109284363A (zh) 一种问答方法、装置、电子设备及存储介质
CN110019685A (zh) 基于排序学习的深度文本匹配方法及装置
EP3819791A3 (en) Information search method and apparatus, device and storage medium
CN108334891A (zh) 一种任务型意图分类方法及装置
CN107329949A (zh) 一种语义匹配方法和系统
CN109408811B (zh) 一种数据处理方法及服务器
CN103778227A (zh) 从检索图像中筛选有用图像的方法
CN109271582A (zh) 一种基于带属性元路径的个性化信息推荐方法
CN107193882A (zh) RDF数据上基于图匹配的why‑not查询回答方法
Shi et al. Weak-attention suppression for transformer based speech recognition
CN116166782A (zh) 一种基于深度学习的智能问答方法
CN111192082B (zh) 产品卖点的分析方法、终端设备及计算机可读存储介质
CN116010581A (zh) 一种基于电网隐患排查场景的知识图谱问答方法及系统
CN112632250A (zh) 一种多文档场景下问答方法及系统
CN113901289A (zh) 一种基于无监督学习的推荐方法及系统
CN113535897A (zh) 一种基于句法关系和意见词分布的细粒度情感分析方法
Papapanagiotou et al. RONTO: Relational to ontology schema matching
CN110795547A (zh) 文本识别方法和相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191105