CN110413761A - 一种基于知识库的领域性单独对话的方法 - Google Patents
一种基于知识库的领域性单独对话的方法 Download PDFInfo
- Publication number
- CN110413761A CN110413761A CN201910719092.1A CN201910719092A CN110413761A CN 110413761 A CN110413761 A CN 110413761A CN 201910719092 A CN201910719092 A CN 201910719092A CN 110413761 A CN110413761 A CN 110413761A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- core word
- sentence
- individually
- territoriality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Abstract
一种基于知识库的领域性单独对话的方法,包括以下步骤:知识库构建;接收用户发送的语句;根据算法流程将用户语句与知识库相关知识匹配;返回相似度最高的知识答案;知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。本发明相对于传统的基于知识库的对话方法,具有精度高、速度快等优点。
Description
技术领域
本发明属于人机问答的数据处理方法,尤其涉及一种基于知识库的领域性单独对话的方法。
背景技术
随着深度学习等AI技术的发展,越来越多的工作可以用AI来完成,从而降低人工的投入,例如智能客服、电话营销、智能催缴等。而这些场景的应用都需要依赖文本技术来实现,自然语言理解能力为这些技术提供底层的支持,帮助使用者更好的利用AI技术来辅助企业运营。智能客服的本质是对话系统,它包含了许多从基础科学到深度学习的方法与知识,是通过结合机器学习、人工智能自然语言理解方向的算法和系统调度处理等方法,实现让机器人理解并生成对话的产物。随着技术的发展,多种不同类型的对话机器人服务于各行各业。技术方需针对不用类型的用户与场景选用合适的机器人类型。目前业内普遍有四种类型的对话机器人:检索型单轮对话机器人、知识图谱型机器人、任务型多轮对话机器人和闲聊型机器人。其中,检索型对话机器人的应用最为广泛,它的实现也相对简单。
发明内容
本发明提出一种基于知识库的领域性单独对话的方法,具有匹配精度高、速度快等优点。
本发明的技术方案:一种基于知识库的领域性单独对话的方法,括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
进一步的改进在于,所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,所述的核心词同义词为核心词的同义词,同义词可以有多个,同义词不能是已存在的核心词,所述的标准问句又称为知识标题,是一条知识的标准问法,所述的答案对应知识,每条知识只有一条答案。
进一步的改进在于,所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
进一步的改进在于,所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选区的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
进一步的改进在于,所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
进一步的改进在于,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系。
进一步的改进在于,所述的主模型分为计算注意力、比较和组合三个阶段。
进一步的改进在于,所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分 为原DA模型的得分 为句子相似度得分; 为
变量。
进一步的改进在于,所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
本发明相对于传统的基于知识库的对话方法,具有以下优点:
精度高,采用注意力机制模型结合句子相似度的方式能提高匹配的效果,减少过拟合,具有很好的泛化能力。速度快,该方法在保证准确率的情况下,能大大地减少推理的速度,能适应线上多并发的情况。通过核心词概念,可以很好的找出相关知识、过滤不相关的知识,减少计算量。
附图说明
图1为本发明所述的算法处理流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明做进一步的描述。
一种基于知识库的领域性单独对话的方法,包括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案, s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,如:“酒店”;核心词同义词为核心词的同义词,同义词可以有多个,但同义词不能是已存在的核心词,如:“旅馆、旅店”;标准问句又称为知识标题,是一条知识的标准问法,如:“度假村里有几家酒店”;相似问句为与标准问句的意思相近的问句,如:“度假村有多少酒店”。答案对应知识,每条知识只有一条答案,如:“度假村共有三家酒店”。
所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
本发明采用的精检索模型结构为主模型(以下简称DA)选自《A DecomposableAttention Model for Natural Language Inference》,该模型擅长实现自然语言推断,其实就是文本蕴含任务,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系,一般分为蕴含关系和矛盾关系,蕴含关系表示从前提中可以推断出推断假说文本;矛盾关系即推断文本与前提文本矛盾。
所述的主模型分为计算注意力、比较和组合三个阶段。
所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分 为原DA模型的得分 为句子相似度得分;为变
量。
所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
本发明相对于传统的基于知识库的对话方法,具有以下优点:精度高,采用注意力机制模型结合句子相似度的方式能提高匹配的效果,减少过拟合,具有很好的泛化能力。速度快,该方法在保证准确率的情况下,能大大地减少推理的速度,能适应线上多并发的情况。通过核心词概念,可以很好的找出相关知识、过滤不相关的知识,减少计算量。
尽管已用具体实施例来说明和描述了本发明,然而应意识到,在不背离本发明的精
神和范围的情况下可以做出许多其它的更改和修改。因此,这意味着在所附权利要求中包
括属于本发明范围内的所有这些变化和修改。
Claims (9)
1.一种基于知识库的领域性单独对话的方法,其特征在于,包括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
其中,s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
2.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,所述的核心词同义词为核心词的同义词,同义词可以有多个,同义词不能是已存在的核心词,所述的标准问句又称为知识标题,是一条知识的标准问法,所述的答案对应知识,每条知识只有一条答案。
3.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
4.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选区的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
5.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
6.根据权利要求5所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系。
7.根据权利要求6所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的主模型分为计算注意力、比较和组合三个阶段。
8.根据权利要求7所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分为原DA模型的得分为句子相似度得分;为变量。
9.根据权利要求8所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719092.1A CN110413761A (zh) | 2019-08-06 | 2019-08-06 | 一种基于知识库的领域性单独对话的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719092.1A CN110413761A (zh) | 2019-08-06 | 2019-08-06 | 一种基于知识库的领域性单独对话的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413761A true CN110413761A (zh) | 2019-11-05 |
Family
ID=68365886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910719092.1A Pending CN110413761A (zh) | 2019-08-06 | 2019-08-06 | 一种基于知识库的领域性单独对话的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413761A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581347A (zh) * | 2020-04-28 | 2020-08-25 | 中国工商银行股份有限公司 | 语句相似度匹配方法及装置 |
CN112507097A (zh) * | 2020-12-17 | 2021-03-16 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113220856A (zh) * | 2021-05-28 | 2021-08-06 | 天津大学 | 一种基于中文预训练模型的多轮对话系统 |
CN113590797A (zh) * | 2021-08-05 | 2021-11-02 | 云上贵州大数据产业发展有限公司 | 一种智能运维客服系统及实现方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475008B2 (en) * | 2000-02-25 | 2009-01-06 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US20090094286A1 (en) * | 2007-10-02 | 2009-04-09 | Lee Hans C | System for Remote Access to Media, and Reaction and Survey Data From Viewers of the Media |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
-
2019
- 2019-08-06 CN CN201910719092.1A patent/CN110413761A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475008B2 (en) * | 2000-02-25 | 2009-01-06 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US20090094286A1 (en) * | 2007-10-02 | 2009-04-09 | Lee Hans C | System for Remote Access to Media, and Reaction and Survey Data From Viewers of the Media |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Non-Patent Citations (2)
Title |
---|
PARIKH A P, TÄCKSTRÖM O, DAS D, ET AL.: "A decomposable attention model for natural language inference", 《ARXIV PREPRINT ARXIV》 * |
李浩, 孙媛: "基于词向量的英文教育文本推荐技术", 《中国教育信息化》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581347A (zh) * | 2020-04-28 | 2020-08-25 | 中国工商银行股份有限公司 | 语句相似度匹配方法及装置 |
CN111581347B (zh) * | 2020-04-28 | 2023-07-21 | 中国工商银行股份有限公司 | 语句相似度匹配方法及装置 |
CN112507097A (zh) * | 2020-12-17 | 2021-03-16 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112507097B (zh) * | 2020-12-17 | 2022-11-18 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN112966087B (zh) * | 2021-03-15 | 2023-10-13 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113220856A (zh) * | 2021-05-28 | 2021-08-06 | 天津大学 | 一种基于中文预训练模型的多轮对话系统 |
CN113590797A (zh) * | 2021-08-05 | 2021-11-02 | 云上贵州大数据产业发展有限公司 | 一种智能运维客服系统及实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413761A (zh) | 一种基于知识库的领域性单独对话的方法 | |
Mrkšić et al. | Multi-domain dialog state tracking using recurrent neural networks | |
Lyu et al. | Hybrid ranking network for text-to-sql | |
CN109992648A (zh) | 基于词迁徙学习的深度文本匹配方法及装置 | |
US10089364B2 (en) | Item recommendation device, item recommendation method, and computer program product | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN109739939A (zh) | 知识图谱的数据融合方法和装置 | |
CN109284363A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN110019685A (zh) | 基于排序学习的深度文本匹配方法及装置 | |
EP3819791A3 (en) | Information search method and apparatus, device and storage medium | |
CN108334891A (zh) | 一种任务型意图分类方法及装置 | |
CN107329949A (zh) | 一种语义匹配方法和系统 | |
CN109408811B (zh) | 一种数据处理方法及服务器 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN109271582A (zh) | 一种基于带属性元路径的个性化信息推荐方法 | |
CN107193882A (zh) | RDF数据上基于图匹配的why‑not查询回答方法 | |
Shi et al. | Weak-attention suppression for transformer based speech recognition | |
CN116166782A (zh) | 一种基于深度学习的智能问答方法 | |
CN111192082B (zh) | 产品卖点的分析方法、终端设备及计算机可读存储介质 | |
CN116010581A (zh) | 一种基于电网隐患排查场景的知识图谱问答方法及系统 | |
CN112632250A (zh) | 一种多文档场景下问答方法及系统 | |
CN113901289A (zh) | 一种基于无监督学习的推荐方法及系统 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
Papapanagiotou et al. | RONTO: Relational to ontology schema matching | |
CN110795547A (zh) | 文本识别方法和相关产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |