CN111209385B - 一种基于凸神经网络的咨询对话唯一答案寻优方法 - Google Patents
一种基于凸神经网络的咨询对话唯一答案寻优方法 Download PDFInfo
- Publication number
- CN111209385B CN111209385B CN202010035727.9A CN202010035727A CN111209385B CN 111209385 B CN111209385 B CN 111209385B CN 202010035727 A CN202010035727 A CN 202010035727A CN 111209385 B CN111209385 B CN 111209385B
- Authority
- CN
- China
- Prior art keywords
- answer
- neural network
- network
- function
- candidate answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 26
- 238000013210 evaluation model Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 43
- 230000002787 reinforcement Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003121 nonmonotonic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种基于凸神经网络的咨询对话唯一答案寻优方法,包括:构造评价模型,所述评价模型根据询问文本从答案文本中获取多个候选答案,并通过凸神经网络对所述候选答案进行评估;根据评估结果获取多个所述候选答案中的最优答案;本发明可有效解决答案寻优过程中易陷入局部最优的问题,确保了最优答案的唯一性,提高了获取答案的准确度。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种基于凸神经网络的咨询对话唯一答案寻优方法。
背景技术
在答案寻优中,通常采用神经网络作为输入输出计算寻优,将问题输入,输出最优答案,但在常规神经网络的寻优中,由于非凸性,容易引起寻优算法陷入局部最小,而无法达到全局最优,而且用户在寻求答案的时候常常仅需要唯一最优答案,而本专利中凸神经网络的引入可以确保最优答案的唯一性。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种基于凸神经网络的咨询对话唯一答案寻优方法,主要解决传统神经网络容易陷入局部极小值的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种基于凸神经网络的咨询对话唯一答案寻优方法,包括:
构造评价模型,所述评价模型根据询问文本从答案文本中获取多个候选答案,并通过凸神经网络对所述候选答案进行评估;
根据评估结果获取多个所述候选答案中的最优答案。
可选地,将所述询问文本转化为问题向量,将所述答案文本转化为答案向量;
根据所述问题向量和所述答案向量的匹配度构造所述评价模型的评价函数。
可选地,所述凸神经网络包括多层网络,每层网络的权重参数非负,且每层网络的激活函数为凸函数。
可选地,根据当前层网络的结构参数构造下一层网络的激活函数;其中,结构参数包括当前层网络的权重参数、当前层网络的激活函数、所述候选答案。
可选地,将所述候选答案馈入所述凸神经网络的每层网络用语构造对应网络层的激活函数。
可选地,根据所述询问文本与所述多个候选答案的映射关系,获取所述评价函数的梯度函数作为所述凸神经网络的值函数。
可选地,根据所述值函数对多个所述候选答案进行评估,获取多个所述候选答案中与所述询问文本匹配度最高的对应候选答案作为所述最优答案。
可选地,根据用户终端的反馈结果对所述最优答案进行满意度评估,根据评估结果矫正所述评价函数。
可选地,所述匹配度包括相对熵或交叉熵中的一种。
如上所述,本发明一种基于凸神经网络的咨询对话唯一答案寻优方法,具有以下有益效果。
通过凸神经网络对候选答案进行评估,更容易收敛到全局最优,提高获取答案的准确性。
附图说明
图1为本发明一实施例中基于凸神经网络的咨询对话唯一答案寻优方法的流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种基于凸神经网络的咨询对话唯一答案寻优方法,包括步骤S01-S02。
在步骤S01中,构造评价模型,评价模型根据询问文本从答案文本中获取多个候选答案,并通过凸神经网络对候选答案进行评估:
在一实施例中,可通过用户终端获取用户的询问文本,根据询问文本从数据库中获取用于解答所述询问文本的答案文本。用户可通过手持终端获取其它终端登录用户界面,进行询问文本的录入。如用户通过语音方式录入,则将语音信息转化为对应的询问文本。可对询问文本进行分句处理,具体地,分句询问文本中句子的句义将对应的句子转化为句义向量,将所有句义向量整合在一起构成询问文本的问题向量;同样的,可将答案文本转化为对应的答案向量。
在一实施例中,可预先构造一个评价模型。以询问文本对应的问题向量作为评价模型的输入。可采用强化学习算法构造评价模型,通常强化学习由两个神经网络构成,包括行动网路和评估网络。评价模型可作为强化学习的动作网络,通过输入问题向量从对应的答案向量组成的向量空间中提取多个候选答案。具体地,可根据问题向量与答案向量的匹配度构造评价模型的评价函数,其中匹配度可采用相对熵或交叉熵中的一种。
可设定匹配度阈值,评价函数根据匹配度阈值从答案向量中提取出多个向量作为候选答案。进一步地,采用凸神经网络作为强化学习的评估网络,对获取的多个候选答案进行评估。
在一实施例中,可设置凸神经网络为一多层网络结构的神经网络,其中,每层网络的权重参数为非负值。权重参数包括候选答案权重和激活函数权重。激活函数为非线性函数,为了保障凸神经网络能够很好的收敛到全局最优,将每层网络对应的激活函数构造成凸函数,且该凸函数为非单调递减函数。
在一实施例中,可根据当前层网络的结构参数构造下一层网络的激活函数。其中结构参数可包括当前层网络的的权重参数、当前层网络的激活函数、以及候选答案。将候选答案馈入每层网络中用于构造对应的激活函数。激活函数可表示如下:
zi+1=gi(Wi (z)zi+Wi (y)y+bi)
其中,zi和zi+1分别表示当前层网络的激活函数和下一层网络的激活函数;Wi (z)表示当前层网络激活函数的权重;y表示馈入当前层网络的候选答案;Wi (y)表示候选答案在当前层网络中的权重;bi表示当前层网络的偏移量;gi为非线性凸函数,且具有非单调递减性。
在多层网络的最后一层采用值函数代替激活函数,以此建立问题向量与对应的候选答案的映射关系;其中,可根据获取的问题向量与多个候选答案的映射关系构造值函数。具体地,可根据评价函数的梯度构造凸神经网络的值函数。假设评价函数表示为f=(x,y;θ),由于在凸神经网络是对同一问题的多个候选答案进行评估,可把x当作常量,函数对y求偏导,获取关于候选答案的分布作为凸神经网络的值函数。
在步骤S02中,根据评估结果获取多个候选答案中的最优答案:
在一实施例中,根据值函数对多个候选答案进行评估,获取多个候选答案中与询问文本匹配度最高的对应候选答案作为询问文本的最优答案。如以评价函数采用相对熵为例,评价函数用于评价问题向量的概率分布与相应的答案向量概率分布之间的偏差,因此,偏差值越小越好。在对评价函数求梯度后可获取评价函数的最小值,即为凸神经网络中对应的值函数的最小值。
在一实施例中,还可获取用户终端的反馈结果,评估用户对输出的最优答案的满意度,根据满意度矫正评价函数。如用户可在每次获取输出的答案后,根据用户终端预设的选项对答案进行评分。其中,评分选项可包括非常满意、大致符合问题、不太符合、完全不符合等。根据用户的选择,用户终端可将反馈信息输入评价模型,对评价函数的相关参数进行调整,包括但不限于调整神经网络的权重参数。
具体地,可设询问文本为A,将A文本输入评价模型,某一时刻,评价模型从B文本中获取的候选答案a1和a2;经过图凸神经网络进行答案搜寻,判定a1的匹配度高于a2。下一时刻,评价模型又从B文本那种获取了候选答案a3、a4、a5,结合上一时刻的a1获知a4更高的匹配度,则用a4替换a1,以此方法可允许模型按设定的顺序对答案文本进行搜索,逐步获取最优答案并输出给用户。
综上所述,本发明一种基于凸神经网络的咨询对话唯一答案寻优方法,理由凸神经网络可搜寻全局最优答案的性质,将凸神经网络与强化学习相结合,可有效避免结果收敛于局部极小值的问题,提高获取答案的准确性。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (3)
1.一种基于凸神经网络的咨询对话唯一答案寻优方法,其特征在于,包括:
构造评价模型,所述评价模型根据询问文本从答案文本中获取多个候选答案,并通过凸神经网络对所述候选答案进行评估,所述凸神经网络包括多层网络,每层网络的权重参数非负,且每层网络的激活函数为凸函数,根据当前层网络的结构参数构造下一层网络的激活函数;其中,结构参数包括当前层网络的权重参数、当前层网络的激活函数、所述候选答案,将所述候选答案馈入所述凸神经网络的每层网络用于构造对应网络层的激活函数;将所述询问文本转化为问题向量,将所述答案文本转化为答案向量;根据所述问题向量和所述答案向量的匹配度构造所述评价模型的评价函数;根据所述询问文本与所述多个候选答案的映射关系,获取所述评价函数的梯度函数作为所述凸神经网络的值函数;
根据评估结果获取多个所述候选答案中的最优答案,包括:根据所述值函数对多个所述候选答案进行评估,获取多个所述候选答案中与所述询问文本匹配度最高的对应候选答案作为所述最优答案。
2.根据权利要求1所述的基于凸神经网络的咨询对话唯一答案寻优方法,其特征在于,根据用户终端的反馈结果对所述最优答案进行满意度评估,根据评估结果矫正所述评价函数。
3.根据权利要求1所述的基于凸神经网络的咨询对话唯一答案寻优方法,其特征在于,所述匹配度包括相对熵或交叉熵中的一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010035727.9A CN111209385B (zh) | 2020-01-14 | 2020-01-14 | 一种基于凸神经网络的咨询对话唯一答案寻优方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010035727.9A CN111209385B (zh) | 2020-01-14 | 2020-01-14 | 一种基于凸神经网络的咨询对话唯一答案寻优方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111209385A CN111209385A (zh) | 2020-05-29 |
CN111209385B true CN111209385B (zh) | 2024-02-02 |
Family
ID=70786710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010035727.9A Active CN111209385B (zh) | 2020-01-14 | 2020-01-14 | 一种基于凸神经网络的咨询对话唯一答案寻优方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111209385B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806517A (zh) * | 2021-09-22 | 2021-12-17 | 未鲲(上海)科技服务有限公司 | 一种基于机器学习模型的外呼方法、装置、设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217592A (ja) * | 2007-03-06 | 2008-09-18 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 |
CN107368547A (zh) * | 2017-06-28 | 2017-11-21 | 西安交通大学 | 一种基于深度学习的智能医疗自动问答方法 |
CN107704506A (zh) * | 2017-08-30 | 2018-02-16 | 华为技术有限公司 | 智能应答的方法和装置 |
CN108647233A (zh) * | 2018-04-02 | 2018-10-12 | 北京大学深圳研究生院 | 一种用于问答系统的答案排序方法 |
CN109376222A (zh) * | 2018-09-27 | 2019-02-22 | 国信优易数据有限公司 | 问答匹配度计算方法、问答自动匹配方法及装置 |
CN109637674A (zh) * | 2018-10-30 | 2019-04-16 | 北京健康有益科技有限公司 | 自动获取健康医疗问题答案的方法、系统、介质和设备 |
CN109857867A (zh) * | 2019-01-22 | 2019-06-07 | 南京邮电大学 | 一种基于循环神经网络的激活函数参数化改进方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4654776B2 (ja) * | 2005-06-03 | 2011-03-23 | 富士ゼロックス株式会社 | 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム |
-
2020
- 2020-01-14 CN CN202010035727.9A patent/CN111209385B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217592A (ja) * | 2007-03-06 | 2008-09-18 | Nippon Telegr & Teleph Corp <Ntt> | 言語解析モデル学習装置、言語解析モデル学習方法、言語解析モデル学習プログラム及びその記録媒体 |
CN107368547A (zh) * | 2017-06-28 | 2017-11-21 | 西安交通大学 | 一种基于深度学习的智能医疗自动问答方法 |
CN107704506A (zh) * | 2017-08-30 | 2018-02-16 | 华为技术有限公司 | 智能应答的方法和装置 |
CN108647233A (zh) * | 2018-04-02 | 2018-10-12 | 北京大学深圳研究生院 | 一种用于问答系统的答案排序方法 |
CN109376222A (zh) * | 2018-09-27 | 2019-02-22 | 国信优易数据有限公司 | 问答匹配度计算方法、问答自动匹配方法及装置 |
CN109637674A (zh) * | 2018-10-30 | 2019-04-16 | 北京健康有益科技有限公司 | 自动获取健康医疗问题答案的方法、系统、介质和设备 |
CN109857867A (zh) * | 2019-01-22 | 2019-06-07 | 南京邮电大学 | 一种基于循环神经网络的激活函数参数化改进方法 |
Non-Patent Citations (4)
Title |
---|
Brandon.Input convex Neural Networks.《必应》.2017,第1-3节. * |
朱瑞 ; 郭顺 ; 肖欣宏 ; 李旭 ; 杜陈杰 ; .基于MATLAB的BP神经网络在江安河水质评价中的应用.中国水运(下半月).2015,(第09期),全文. * |
李彦冬 ; 郝宗波 ; 雷航 ; .卷积神经网络研究综述.计算机应用.2016,(第09期),全文. * |
陈柯锦 ; 侯俊安 ; 郭智 ; 梁霄 ; .基于多尺度相似度特征的答案选择算法.系统工程与电子技术.2018,(第06期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111209385A (zh) | 2020-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162611B (zh) | 一种智能客服应答方法及系统 | |
CN109145290B (zh) | 基于字向量与自注意力机制的语义相似度计算方法 | |
CN113505205A (zh) | 一种人机对话的系统和方法 | |
CN109800307A (zh) | 产品评价的分析方法、装置、计算机设备及存储介质 | |
CN110633960A (zh) | 一种基于大数据的人力资源智能匹配、推荐的方法 | |
CN111933127A (zh) | 一种具备自学习能力的意图识别方法及意图识别系统 | |
CN111177310A (zh) | 电力服务机器人智能场景会话方法及装置 | |
CN110674276B (zh) | 机器人自学习方法、机器人终端、装置及可读存储介质 | |
CN110851566A (zh) | 一种改进的可微分网络结构搜索的方法 | |
US20220058349A1 (en) | Data processing method, device, and storage medium | |
CN109241243A (zh) | 候选文档排序方法及装置 | |
CN112000788B (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN111429157A (zh) | 投诉工单的评价处理方法、装置、设备及存储介质 | |
CN111209385B (zh) | 一种基于凸神经网络的咨询对话唯一答案寻优方法 | |
CN107506426A (zh) | 一种智能电视自动智能应答机器人的实现方法 | |
CN109492085A (zh) | 基于数据处理的答案确定方法、装置、终端及存储介质 | |
CN117494727A (zh) | 用于大语言模型的去偏倚方法 | |
CN112925894B (zh) | 对话中标问匹配方法、系统及装置 | |
CN110069613A (zh) | 一种回复获取方法及装置 | |
CN117473093A (zh) | 一种基于llm模型获取目标事件的数据处理系统 | |
CN113590798A (zh) | 对话意图识别、用于识别对话意图的模型的训练方法 | |
CN111680134B (zh) | 一种信息熵度量问答咨询信息的方法 | |
CN111400479B (zh) | 针对多轮对话的问题识别方法和装置 | |
CN108710944A (zh) | 一种可训练分段式线性激活函数生成方法 | |
CN108206020A (zh) | 一种语音识别方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 400000 6-1, 6-2, 6-3, 6-4, building 7, No. 50, Shuangxing Avenue, Biquan street, Bishan District, Chongqing Applicant after: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. Address before: 400000 2-2-1, 109 Fengtian Avenue, tianxingqiao, Shapingba District, Chongqing Applicant before: CHONGQING ZHAOGUANG TECHNOLOGY CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |