CN110413761A - 一种基于知识库的领域性单独对话的方法 - Google Patents
一种基于知识库的领域性单独对话的方法 Download PDFInfo
- Publication number
- CN110413761A CN110413761A CN201910719092.1A CN201910719092A CN110413761A CN 110413761 A CN110413761 A CN 110413761A CN 201910719092 A CN201910719092 A CN 201910719092A CN 110413761 A CN110413761 A CN 110413761A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- core word
- word
- base
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract 1
- 230000006872 improvement Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于知识库的领域性单独对话的方法,包括以下步骤:知识库构建;接收用户发送的语句;根据算法流程将用户语句与知识库相关知识匹配;返回相似度最高的知识答案;知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。本发明相对于传统的基于知识库的对话方法,具有精度高、速度快等优点。
Description
技术领域
本发明属于人机问答的数据处理方法,尤其涉及一种基于知识库的领域性单独对话的方法。
背景技术
随着深度学习等AI技术的发展,越来越多的工作可以用AI来完成,从而降低人工的投入,例如智能客服、电话营销、智能催缴等。而这些场景的应用都需要依赖文本技术来实现,自然语言理解能力为这些技术提供底层的支持,帮助使用者更好的利用AI技术来辅助企业运营。智能客服的本质是对话系统,它包含了许多从基础科学到深度学习的方法与知识,是通过结合机器学习、人工智能自然语言理解方向的算法和系统调度处理等方法,实现让机器人理解并生成对话的产物。随着技术的发展,多种不同类型的对话机器人服务于各行各业。技术方需针对不用类型的用户与场景选用合适的机器人类型。目前业内普遍有四种类型的对话机器人:检索型单轮对话机器人、知识图谱型机器人、任务型多轮对话机器人和闲聊型机器人。其中,检索型对话机器人的应用最为广泛,它的实现也相对简单。
发明内容
本发明提出一种基于知识库的领域性单独对话的方法,具有匹配精度高、速度快等优点。
本发明的技术方案:一种基于知识库的领域性单独对话的方法,括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
进一步的改进在于,所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,所述的核心词同义词为核心词的同义词,同义词可以有多个,同义词不能是已存在的核心词,所述的标准问句又称为知识标题,是一条知识的标准问法,所述的答案对应知识,每条知识只有一条答案。
进一步的改进在于,所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
进一步的改进在于,所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选区的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
进一步的改进在于,所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
进一步的改进在于,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系。
进一步的改进在于,所述的主模型分为计算注意力、比较和组合三个阶段。
进一步的改进在于,所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分 为原DA模型的得分 为句子相似度得分; 为
变量。
进一步的改进在于,所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
本发明相对于传统的基于知识库的对话方法,具有以下优点:
精度高,采用注意力机制模型结合句子相似度的方式能提高匹配的效果,减少过拟合,具有很好的泛化能力。速度快,该方法在保证准确率的情况下,能大大地减少推理的速度,能适应线上多并发的情况。通过核心词概念,可以很好的找出相关知识、过滤不相关的知识,减少计算量。
附图说明
图1为本发明所述的算法处理流程图。
具体实施方式
下面结合附图以及具体实施方式对本发明做进一步的描述。
一种基于知识库的领域性单独对话的方法,包括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案, s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,如:“酒店”;核心词同义词为核心词的同义词,同义词可以有多个,但同义词不能是已存在的核心词,如:“旅馆、旅店”;标准问句又称为知识标题,是一条知识的标准问法,如:“度假村里有几家酒店”;相似问句为与标准问句的意思相近的问句,如:“度假村有多少酒店”。答案对应知识,每条知识只有一条答案,如:“度假村共有三家酒店”。
所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
本发明采用的精检索模型结构为主模型(以下简称DA)选自《A DecomposableAttention Model for Natural Language Inference》,该模型擅长实现自然语言推断,其实就是文本蕴含任务,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系,一般分为蕴含关系和矛盾关系,蕴含关系表示从前提中可以推断出推断假说文本;矛盾关系即推断文本与前提文本矛盾。
所述的主模型分为计算注意力、比较和组合三个阶段。
所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分 为原DA模型的得分 为句子相似度得分;为变
量。
所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
本发明相对于传统的基于知识库的对话方法,具有以下优点:精度高,采用注意力机制模型结合句子相似度的方式能提高匹配的效果,减少过拟合,具有很好的泛化能力。速度快,该方法在保证准确率的情况下,能大大地减少推理的速度,能适应线上多并发的情况。通过核心词概念,可以很好的找出相关知识、过滤不相关的知识,减少计算量。
尽管已用具体实施例来说明和描述了本发明,然而应意识到,在不背离本发明的精
神和范围的情况下可以做出许多其它的更改和修改。因此,这意味着在所附权利要求中包
括属于本发明范围内的所有这些变化和修改。
Claims (9)
1.一种基于知识库的领域性单独对话的方法,其特征在于,包括以下步骤:
s1:知识库构建;
s2:接收用户发送的语句;
s3:根据算法流程将用户语句与知识库相关知识匹配;
s4:返回相似度最高的知识答案;
其中,s1中所述的知识库在项目前期构建,知识库包含五大元素:核心词、核心词同义词、标准问句、相似问句、答案,s3中所述的算法流程包括核心词检索、粗检索、精检索三大步骤,各个步骤可单独运作。
2.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的核心词为一个知识标题中,最具有代表性的词组,且一个知识标题有且只有一个核心词,所述的核心词同义词为核心词的同义词,同义词可以有多个,同义词不能是已存在的核心词,所述的标准问句又称为知识标题,是一条知识的标准问法,所述的答案对应知识,每条知识只有一条答案。
3.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的核心词检索步骤包括以下子步骤:
S11:用户输入一句问句;
S12:系统需检测问句中是否包含核心词或者是某个核心词对应的同义词,如果存在,系统将从整个知识库中筛选核心词为该核心词的知识到备选区。
4.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的粗检索步骤包括以下子步骤:
S21:通过分词算法对用户问句以及备选区的知识进行分词;
S22:结合word2vec模型得出各个词组的词向量;
S23:采用词向量平均法得出句子的向量;
S24:句子相似度的度量采用余弦相似度,返回高于某阈值的知识进入到下一阶段。
5.根据权利要求1所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的精检索步骤包括以下子步骤:
s31:采用深度学习模型,对粗检索返回的结果进行精排序;
s32:分值高于设置的直出阈值的知识数量大于等于一时,则直接返回分数最高的知识答案;
s33:分值高于设置的最低阈值且低于直出阈值的知识数量大于等于一,则返回分数最高的前三条知识作为推荐知识供用户点选。
6.根据权利要求5所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的深度学习模型主模型任务的形式为给定一个前提文本,根据这个前提去推断假说文本与前提的关系。
7.根据权利要求6所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的主模型分为计算注意力、比较和组合三个阶段。
8.根据权利要求7所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的组合阶段融入句子向量相似度计算,结合原模型的计算结果,结合方式如下:
其中,为最终得分为原DA模型的得分为句子相似度得分;为变量。
9.根据权利要求8所述的一种基于知识库的领域性单独对话的方法,其特征在于,所述的句子向量相似度计算采用word2vec词向量,并添加领域性的无监督数据进行微调。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719092.1A CN110413761A (zh) | 2019-08-06 | 2019-08-06 | 一种基于知识库的领域性单独对话的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910719092.1A CN110413761A (zh) | 2019-08-06 | 2019-08-06 | 一种基于知识库的领域性单独对话的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110413761A true CN110413761A (zh) | 2019-11-05 |
Family
ID=68365886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910719092.1A Pending CN110413761A (zh) | 2019-08-06 | 2019-08-06 | 一种基于知识库的领域性单独对话的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413761A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581347A (zh) * | 2020-04-28 | 2020-08-25 | 中国工商银行股份有限公司 | 语句相似度匹配方法及装置 |
CN112507097A (zh) * | 2020-12-17 | 2021-03-16 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113220856A (zh) * | 2021-05-28 | 2021-08-06 | 天津大学 | 一种基于中文预训练模型的多轮对话系统 |
CN113590797A (zh) * | 2021-08-05 | 2021-11-02 | 云上贵州大数据产业发展有限公司 | 一种智能运维客服系统及实现方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475008B2 (en) * | 2000-02-25 | 2009-01-06 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US20090094286A1 (en) * | 2007-10-02 | 2009-04-09 | Lee Hans C | System for Remote Access to Media, and Reaction and Survey Data From Viewers of the Media |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
-
2019
- 2019-08-06 CN CN201910719092.1A patent/CN110413761A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475008B2 (en) * | 2000-02-25 | 2009-01-06 | Novell, Inc. | Construction, manipulation, and comparison of a multi-dimensional semantic space |
US20090094286A1 (en) * | 2007-10-02 | 2009-04-09 | Lee Hans C | System for Remote Access to Media, and Reaction and Survey Data From Viewers of the Media |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN109271505A (zh) * | 2018-11-12 | 2019-01-25 | 深圳智能思创科技有限公司 | 一种基于问题答案对的问答系统实现方法 |
Non-Patent Citations (2)
Title |
---|
PARIKH A P, TÄCKSTRÖM O, DAS D, ET AL.: "A decomposable attention model for natural language inference", 《ARXIV PREPRINT ARXIV》 * |
李浩, 孙媛: "基于词向量的英文教育文本推荐技术", 《中国教育信息化》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581347A (zh) * | 2020-04-28 | 2020-08-25 | 中国工商银行股份有限公司 | 语句相似度匹配方法及装置 |
CN111581347B (zh) * | 2020-04-28 | 2023-07-21 | 中国工商银行股份有限公司 | 语句相似度匹配方法及装置 |
CN112507097A (zh) * | 2020-12-17 | 2021-03-16 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112507097B (zh) * | 2020-12-17 | 2022-11-18 | 神思电子技术股份有限公司 | 一种提高问答系统泛化能力的方法 |
CN112966087A (zh) * | 2021-03-15 | 2021-06-15 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN112966087B (zh) * | 2021-03-15 | 2023-10-13 | 中国美术学院 | 一种灵感素材的智能问答系统及方法 |
CN113220856A (zh) * | 2021-05-28 | 2021-08-06 | 天津大学 | 一种基于中文预训练模型的多轮对话系统 |
CN113590797A (zh) * | 2021-08-05 | 2021-11-02 | 云上贵州大数据产业发展有限公司 | 一种智能运维客服系统及实现方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413761A (zh) | 一种基于知识库的领域性单独对话的方法 | |
Van Der Wees et al. | Dynamic data selection for neural machine translation | |
Wang et al. | Contextualized emotion recognition in conversation as sequence tagging | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN112000791B (zh) | 一种电机故障知识抽取系统及方法 | |
Tan et al. | Lstm-based deep learning models for non-factoid answer selection | |
Mamou et al. | System combination and score normalization for spoken term detection | |
Henderson | Inducing history representations for broad coverage statistical parsing | |
US11081104B1 (en) | Contextual natural language processing | |
Huang et al. | Adapting pretrained transformer to lattices for spoken language understanding | |
CN108170848B (zh) | 一种面向中国移动智能客服的对话场景分类方法 | |
CN116821168B (zh) | 一种改进的基于生成式大语言模型的nl2sql方法 | |
CN110909140B (zh) | 一种图谱问答与检索问答结合的中枢路由方法及装置 | |
CN110008308B (zh) | 针对用户问句补充信息的方法和装置 | |
CN110347833B (zh) | 一种多轮对话的分类方法 | |
CN113297365B (zh) | 一种用户意向判定方法、装置、设备及存储介质 | |
CN107832439A (zh) | 多轮状态追踪的方法、系统及终端设备 | |
CN117312500B (zh) | 一种基于ann和bert的语义检索模型建立方法 | |
Zeng et al. | N-best hypotheses reranking for text-to-sql systems | |
CN111881672A (zh) | 一种意图识别的方法 | |
Zorrilla et al. | Audio Embedding-Aware Dialogue Policy Learning | |
Kim et al. | Pre-training of hidden-unit crfs | |
Broughton et al. | Improving end-to-end neural diarization using conversational summary representations | |
CN108595413B (zh) | 一种基于语义依存树的答案抽取方法 | |
Nanchen et al. | Empirical evaluation and combination of punctuation prediction models applied to broadcast news |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191105 |