CN116775848B - 生成对话信息的控制方法、装置、计算设备及存储介质 - Google Patents
生成对话信息的控制方法、装置、计算设备及存储介质 Download PDFInfo
- Publication number
- CN116775848B CN116775848B CN202311061212.6A CN202311061212A CN116775848B CN 116775848 B CN116775848 B CN 116775848B CN 202311061212 A CN202311061212 A CN 202311061212A CN 116775848 B CN116775848 B CN 116775848B
- Authority
- CN
- China
- Prior art keywords
- dialogue
- information
- data
- dialogue history
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003062 neural network model Methods 0.000 claims abstract description 72
- 238000012549 training Methods 0.000 claims description 71
- 230000008569 process Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Abstract
本发明提供了一种生成对话信息的控制方法、装置、计算设备及存储介质,涉及人工智能技术领域,该方法包括步骤:获取对话历史信息;根据所述对话历史信息生成查询短语;将所述查询短语发送至搜索引擎以得到查询数据;将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息;根据所述知识信息生成对话信息。本发明的有益效果:能够提高中文对话系统答复的准确性。
Description
技术领域
本发明涉及人工智能技术领域,具体而言,涉及一种生成对话信息的控制方法、装置、计算设备及存储介质。
背景技术
中文开放域对话系统的应用场景是在中文的语境下,处理用户提出的任意话题,并根据上下文和语境进行回答,实现人机自然交互,是人工智能领域的一个重要研究方向。目前,中文开放域对话系统已经得到广泛的应用,如智能客服、智能语音助手、在线问答等等,这些应用场景要求对话系统具有高质量的问答能力和知识储备,能够与用户进行高效、精准的交互。
目前,业界主要采取深度学习的模型(如Transformer、BERT等)来构建中文开放域对话系统。深度学习模型通过在大量中文长文本数据以及对话数据上进行训练可以有效地提高对话系统的准确率和效率。
当下的开放域中文对话系统虽然在某些方面取得了较好的表现,但在生成对话内容的时效性和真实性方面仍存在不足。一方面,传统的深度学习模型所能学习到的参数完全取决于训练模型时提供的数据,而训练模型的数据随着时间的推移会出现知识滞后、错误的情况,这导致了完全基于深度学习模型的开放域对话系统对于用户时效性强的问题不能做出准确的回答;另一方面,由于深度学习模型本身的局限性、训练数据集不完备、存在噪声等多方面因素,深度学习模型生成的内容有时会出现事实性错误。这两方面因素都影响了基于深度学习模型的开放域对话系统的性能。
发明内容
本发明解决的问题是如何提高中文对话系统答复的准确性。
为解决上述问题,本发明提供了一种生成对话信息的控制方法,包括步骤:
获取对话历史信息;
根据所述对话历史信息生成查询短语;
将所述查询短语发送至搜索引擎以得到查询数据;
将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息;
根据所述知识信息生成对话信息。
本发明中的生成对话信息的控制方法,根据对话历史信息处理得到查询短语,以此可以帮助更好地理解用户的需求,便于提高后续的应答率和准确率,进而基于查询短语进行搜索,例如使用网络搜索引擎进行搜索,以能够提高知识检索的效率,得到实时性更强以及准确率较高的查询数据,同时,基于搜索引擎能够从多个角度获取相关的知识,提高后续模型对多义性和歧义性的处理能力,由此,将查询数据与对话历史信息拼接后作为神经网络模型的输入数据,以生成知识信息,通过将对话历史信息与查询数据进行结合,作为神经网络模型的输入,进而神经网络模型会输出根据查询数据所提取出的与对话历史信息相关联的知识信息,以此,在基于知识信息生成对话信息并作为提供给用户的对话答复时,能够提高答复的准确性,减少以及避免出现答复错误以及提供滞后的信息。
进一步地,所述神经网络模型包括编码器和解码器,所述查询数据为多个;所述将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息包括步骤:
将所述对话历史信息与多个所述查询数据分别拼接,以生成多个拼接数据;
将各所述拼接数据并行输入至所述编码器以得到多个向量表示,并将各个所述向量表示拼接得到拼接向量;
将所述拼接向量输入所述解码器以生成所述知识信息。
进一步地,所述将所述拼接向量输入所述解码器以生成所述知识信息包括步骤:
确定所述拼接向量与所述解码器的隐状态的加权求和结果;
根据所述加权求和结果动态调整所述解码器的注意力分配权重。
进一步地,所述根据所述对话历史信息生成查询短语包括:将所述对话历史信息输入所述神经网络模型,以得到所述查询短语,和/或,所述根据所述知识信息生成对话信息包括:将所述知识信息与所述对话历史信息拼接得到的向量输入所述神经网络模型,以得到所述对话信息。
进一步地,所述神经网络模型的训练过程包括步骤:
获取训练数据;
根据所述训练数据和预设提示字符构建模型输入数据,其中,所述神经网络模型用于识别所述预设提示字符以生成对应的模型输出结果。
进一步地,所述预设提示字符包括第一预设提示字符,所述训练数据包括对话历史训练数据和与所述对话历史训练数据相关联的查询短语训练数据;所述神经网络模型的训练过程还包括步骤:
根据所述对话历史训练数据生成提示词;
将所述对话历史训练数据与所述提示词拼接得到对话历史拼接提示词,其中,通过所述第一预设提示字符将所述对话历史拼接提示词中的对话历史文本和所述提示词间隔划分;
将所述到对话历史拼接提示词输入初始的所述神经网络模型以得到第一模型输出结果;
根据所述第一模型输出结果和所述查询短语训练数据对初始的所述神经网络模型进行调整。
进一步地,所述预设提示字符包括第二预设提示字符,所述训练数据包括对话历史训练数据和与所述对话历史训练数据相关联的知识性对话数据;所述神经网络模型的训练还包括步骤:
根据所述对话历史训练数据和所述知识性对话数据生成对话历史拼接知识文本,其中,通过所述第二预设提示字符将所述对话历史拼接知识文本中的对话历史文本和知识文本间隔划分;
将所述对话历史拼接知识文本输入初始的所述神经网络模型以得到第二模型输出结果;
根据所述第二模型输出结果和所述知识性对话数据对初始的所述神经网络模型进行调整。
本发明还提出了一种生成对话信息的控制装置,包括:
获取模块,用于获取对话历史信息;
查询短语生成模块,用于根据所述对话历史信息生成查询短语;
搜索引擎服务器模块,用于将所述查询短语发送至搜索引擎以得到查询数据;
知识生成模块,用于将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息;
对话回复生成模块,用于根据所述知识信息生成对话信息。
本发明的生成对话信息的控制装置具有与上述生成对话信息的控制方法相近似的技术效果,在此不再进行赘述。
本发明还提出了一种计算设备,包括存储器和处理器,所述存储器,用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如上所述的生成对话信息的控制方法。
本发明的计算设备具有与上述生成对话信息的控制方法相近似的技术效果,在此不再进行赘述。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的生成对话信息的控制方法。
本发明中的计算机可读存储介质具有与上述生成对话信息的控制方法相近似的技术效果,在此不再进行赘述。
附图说明
图1为本发明实施例所述的生成对话信息的控制方法的流程图一;
图2为本发明实施例所述的生成对话信息的控制方法的流程图二;
图3为本发明实施例所述的生成对话信息的控制装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种行驶来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”;术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
参照图1所示,本发明实施例提出了一种生成对话信息的控制方法,包括步骤:
获取对话历史信息。
本发明的生成对话信息的控制方法可以应用于服务器或应用于用户终端中,以此搭建开放域对话系统,如中文开放域对话系统。具体地,在使用时,可提供给用户对话窗,以此供用户进行对话。对此,对话历史信息可以是用户于对话窗中与人工智能对话的上下文信息,也即用户的与人工智能进行过交互的聊天记录,包括用户的提问或请求以及人工智能的回答或响应。这些对话历史信息被记录下来,以供后续分析,由此基于该对话历史信息改进人工智能的应答及后续优化用户的体验。
根据所述对话历史信息生成查询短语。
例如,对于用户交互时用户询问所发出的对话“你好,我想问下明天的天气怎么样”,根据该对话历史信息可以处理得到查询短语为“明天的天气”,以此可以帮助更好地理解用户的需求,并提高人工智能的应答率和准确度。
在一个可选的实施例中,可以针对对话历史信息,先提炼关键词,如,生成“天气”及“明天”等关键词,进一步地,基于关键词生成查询短语“明天的天气”。
将所述查询短语发送至搜索引擎以得到查询数据。
具体地,所述搜索引擎可以包括网络搜索引擎,例如百度、必应、搜狗及360等等,可基于API接口实现自动化的查询与结果获取功能,查询短语通过网络搜索引擎处理后,得到网络搜索引擎返回的查询数据,这些查询数据可包括知识面板信息和链接文档,例如,知识面板信息包含网络搜索引擎生成的各类型概括性知识,包括天气、金融经济、航班、字典、日期节日等。
由此,利用对话历史信息生成查询短语,并结合网络搜索引擎的服务器进行检索,从而提高理解和推理能力,以及提高知识检索的效率,以此可以大大减少无用信息,缩短知识检索的时间,同时,利用网络搜索引擎能够获取实时性更强的信息,后续,基于这些实时信息进行对话信息的生成,由此,基于网络搜索引擎能够从多个角度获取相关的知识,提高模型对多义性和歧义性的处理能力,提高对话回复的准确性,降低出现事实性错误的概率,解决回复滞后的问题。
本发明实施例中,使用网络搜索引擎进行检索,能够避免或减少构建并更新知识检索数据集的工作量,相对使用知识检索数据库的方法需要人工构建知识库,并不断更新和维护所需要耗费大量的人力和物力,本发明使用网络检索的方式,可以直接从互联网上获取最新的知识信息,以此极大减少了成本。
另外,相较于采用知识图谱增强的对话回复系统,通过采用网络搜索引擎,可以更好地适用于与任何人进行自然对话,而知识图谱问答系统则需要用户提供特定的问题才能提供有用的答案,以此,使得可以应用于更加广泛的领域,如智能客服、语音助手、在线教育。
其中,在一个可选的实施例中可还包括本地检索数据库,进行本地搜索,这些本地检索数据库中可包括提前清洗标注过的数据,以此配合上述搜索引擎进行数据检索,以此,通过两者结合,在降低数据标引成本的同时,能够提高对话回复的准确性和专业性。
将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息。
根据所述知识信息生成对话信息。
本发明实施例中,神经网络模型可以采用训练后的编码器-解码器(Transformerencoder-decoder)结构的神经网络模型,对于模型的输入,为得到的查询数据结合此前的对话历史信息进行数据拼接得到后的数据,也即网络搜索引擎返回的只是面板信息和文档等与对话历史信息进行结合,作为神经网络模型的输入,进而神经网络模型会输出根据查询数据所提取出的与对话历史信息相关联的知识。由此,采用对话历史信息、知识面板信息和链接文档等网络搜索引擎返回的查询数据等多类型信息进行知识信息的生成,以此能够提高神经网络模型对多义性和歧义性的处理能力,进一步降低出现事实性错误的概率。后续,基于该知识信息生成对话信息,以进行回复,能够保证对话的流畅度,提高对话质量。
其中,通过对历史对话信息与查询数据进行数据拼接处理作为模型输入,以便更好地理解用户的意图和提供更好的应答。数据拼接可以通过多种方式实现,包括竖直合并、水平合并和连接合并等方式。
在本发明的一个可选的实施例中,所述神经网络模型包括编码器和解码器,所述查询数据为多个;所述将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息包括步骤:
将所述对话历史信息与多个所述查询数据分别拼接,以生成多个拼接数据。
将各所述拼接数据并行输入至所述编码器以得到多个向量表示,并将各个所述向量表示拼接得到拼接向量。
将所述拼接向量输入所述解码器以生成所述知识信息。
参照图2所示,本发明实施例中的神经网络模型采用编码器-解码器结构的神经网络模型,对于其中的编码器,其输入数据为对话历史信息与查询数据的拼接数据,对于一段对话历史信息,可以对应查询有多个查询数据(如图2中的文档1-文档k),相应地,对话历史信息与查询数据分别拼接后并行输入编码器(如图2中拼接数据对话历史文档1-对话历史文档k),以此基于并行处理对话历史信息和多个文档的编码,提高了计算效率。
经由编码器处理,得到多个向量表示(如图2中向量表示1-向量表示k),这样做可以充分捕捉对话历史和各个文档的上下文信息,有助于生成更准确的知识,后续将各个向量表示进行拼接,得到拼接向量,以作为解码器的输入,进而解码器将拼接向量进行处理,以此能够有效融合对话历史和查询数据的信息,进而生成知识信息,以此能够生成更加准确和富有多样性的知识,且使得所得到的知识学习满足语境需要。
基于上述方法进行对话历史信息和查询数据的处理,能够便于扩展到处理更多的文档和更复杂的对话场景,提高了神经网络模型的适用性,有效拓展了可处理文档和对话的文本长度。
在本发明的一个可选的实施例中,所述将所述拼接向量输入所述解码器以生成所述知识信息包括步骤:
确定所述拼接向量与所述解码器的隐状态的加权求和结果。
根据所述加权求和结果动态调整所述解码器的注意力分配权重。
本发明实施例中,拼接向量是将对话历史信息和查询数据拼接而成的向量,而基于解码器的神经网络模型可利用这个向量以及其他信息来生成知识信息,在此过程中,引入注意力机制,包括了将拼接向量与解码器的隐状态的加权求和结果。这个加权求和结果的能够将拼接向量中的信息和解码器中的信息结合起来,从而更好地理解用户的意图,并生成更加准确的知识信息。
具体地,加权求和结果是通过计算拼接向量和解码器的隐状态之间的相似度来实现的,相似度越高的位置将被赋予更高的权重,从而使得解码器更关注与当前问题有关的信息。
后续,加权求和结果用于动态地调整注意力权重,从而更好地捕捉输入序列中的关键信息和上下文信息。这个加权系数的学习过程由模型自动完成的,它具有很强的适应性和泛化能力,能够有效地建模不同长度、不同复杂度的输入序列,并生成具有高质量、逼真度的输出。
该神经网络模型可以包括与上述对对话历史信息和查询数据处理得到知识信息的过程相近似的训练过程,在此不再进行赘述。
在本发明的一个可选的实施例中,所述根据所述对话历史信息生成查询短语包括:将所述对话历史信息输入所述神经网络模型,以得到所述查询短语,和/或,所述根据所述知识信息生成对话信息包括:将所述知识信息与所述对话历史信息拼接得到的向量输入所述神经网络模型,以得到所述对话信息。
本发明实施例中,对于查询短语和对话信息的生成过程,均可采用训练后的神经网络模型生成,具体地,将对话历史信息和知识信息作为神经网络模型的输入数据,相应地,神经网络模型分别进行处理得到查询短语和对话信息,其中,查询短语后续结合网络搜索引擎得到查询数据并再次输入神经网络模型,以结合对话历史信息生成指示知识信息,此时知识信息作为新的神经网络模型的输入。
由此,本发明一个具体的实施例中,对于查询短语、知识信息和对话信息的生成可采用同一个编码器-解码器模型,继而采用统一的多任务训练策略,以避免模型在学习过程中遗忘特定任务。通过这种方法,可以确保模型在各个任务上都能取得良好的性能。
相应地,所述神经网络模型的训练过程包括步骤:
获取训练数据。
根据所述训练数据和预设提示字符构建模型输入数据,其中,所述神经网络模型用于识别所述预设提示字符以生成对应的模型输出结果。
其中,对于神经网络模型训练数据的获取,可以收集包含对话历史对照搜索短语数据集、知识性问答数据集、知识性对话数据集、一般对话数据集等原始数据,继而,对收集到的数据进行预处理,包括文本清洗、分词、去除停用词等,以得到符合需求的训练数据。
由于对查询短语、知识信息和对话信息的生成过程,其训练数据不同,由此,通过不同的提示词(预设提示字符)区分不同的任务,由此,进行统一的多任务训练。
在一个可选的实施例中,所述预设提示字符包括第一预设提示字符,所述训练数据包括对话历史训练数据和与所述对话历史训练数据相关联的查询短语训练数据;所述神经网络模型的训练过程还包括步骤:
根据所述对话历史训练数据生成提示词。
可收集包含对话历史和基于对话历史的相应查询短语的数据集,进行处理后得到训练数据。以对话历史训练数据为“告诉我下明天的天气怎么样”为例,通过对对话历史训练数据进行提炼,可以得到提示词如“明天天气”。
将所述对话历史训练数据与所述提示词拼接得到对话历史拼接提示词,其中,通过所述第一预设提示字符将所述对话历史拼接提示词中的对话历史文本和所述提示词间隔划分。
将所述到对话历史拼接提示词输入初始的所述神经网络模型以得到第一模型输出结果。
由此,将对话历史训练数据与提示词进行拼接,即得到该任务下的神经网络模型训练的输入数据,如,对话历史拼接提示词为“告诉我下明天的天气怎么样生成查询短语明天天气”,此时第一预设提示字符即“生成查询短语”,以此将前后间隔开,供神经网络模型进行识别并进行特定的训练,神经网络模型输出第一模型输出结果,即此时相应的查询短语。
根据所述第一模型输出结果和所述查询短语训练数据对初始的所述神经网络模型进行调整。
神经网络模型采用解码器-编码器结构的模型作为基础模型,并定义模型的输入、输出格式和各个组成部分的结构、参数等。同时定义损失函数,可采用交叉熵损失函数作为模型的优化目标,即将生成的查询短语与查询短语训练数据中真实的查询短语进行比较,计算它们之间的距离作为损失函数的值,继而采用如梯度下降等优化算法来更新模型参数,使得损失函数不断降低。后续,可使用测试数据对训练得到的模型进行评估。
在本发明的一个可选的实施例中,所述预设提示字符包括第二预设提示字符,所述训练数据包括对话历史训练数据和与所述对话历史训练数据相关联的知识性对话数据;所述神经网络模型的训练还包括步骤:
根据所述对话历史训练数据和所述知识性对话数据生成对话历史拼接知识文本,其中,通过所述第二预设提示字符将所述对话历史拼接知识文本中的对话历史文本和知识文本间隔划分。
将所述对话历史拼接知识文本输入初始的所述神经网络模型以得到第二模型输出结果。
可收集包含对话历史和对应对话历史的相应的知识性对话的数据集,进行处理后得到包括对话历史训练数据和所述知识性对话数据的训练数据。将对话历史训练数据提炼得到的对话历史文本与知识性对话数据提炼得到的知识性文本进行拼接,即得到该任务下的神经网络模型训练的输入数据,可采用“知识开始”、“知识结束”等特定的第二预设提示字符,将前后间隔开,供神经网络模型进行识别并进行特定的训练,神经网络模型输出第二模型输出结果,即此时相应的对话信息。
根据所述第二模型输出结果和所述知识性对话数据对初始的所述神经网络模型进行调整。
基于第二模型输出结果和知识性对话数据对神经网络模型的调整过程可以与上述通过所述第一模型输出结果和所述查询短语训练数据对初始的所述神经网络模型进行调整的过程相近似,在此不再进行赘述。
参照图3所示,本发明另一实施例的一种生成对话信息的控制装置,包括:
获取模块,用于获取对话历史信息;
查询短语生成模块,用于根据所述对话历史信息生成查询短语;
搜索引擎服务器模块,用于将所述查询短语发送至搜索引擎以得到查询数据;
知识生成模块,用于将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息;
对话回复生成模块,用于根据所述知识信息生成对话信息。
本发明的生成对话信息的控制装置具有与上述生成对话信息的控制方法相近似的技术效果,在此不再进行赘述。
本发明另一实施例的一种计算设备,包括存储器和处理器,所述存储器,用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如上所述的生成对话信息的控制方法。
本发明的计算设备具有与上述生成对话信息的控制方法相近似的技术效果,在此不再进行赘述。
本发明另一实施例的一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的生成对话信息的控制方法。
本发明中的计算机可读存储介质具有与上述生成对话信息的控制方法相近似的技术效果,在此不再进行赘述。
一般来说,用于实现本发明方法的计算机指令的可以采用一个或多个计算机可读的存储介质的任意组合来承载。非临时性计算机可读存储介质可以包括任何计算机可读介质,除了临时性地传播中的信号本身。
计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、C#,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言,特别是可以使用适于神经网络计算的Python语言和基于TensorFlow、PyTorch等平台框架。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
虽然本发明披露如上,但本发明的保护范围并非仅限于此。本领域技术操作工在不脱离本发明的精神和范围的前提下,可进行各种变更与修改,这些变更与修改均将落入本发明的保护范围。
Claims (8)
1.一种生成对话信息的控制方法,其特征在于,包括:
获取对话历史信息;
根据所述对话历史信息生成查询短语;
将所述查询短语发送至搜索引擎以得到多个查询数据;
将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息,其中,所述神经网络模型包括编码器和解码器;
所述将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息包括:
将所述对话历史信息与多个所述查询数据分别拼接,以生成多个拼接数据;
将各所述拼接数据并行输入至所述编码器以得到多个向量表示,并将各个所述向量表示拼接得到拼接向量;
将所述拼接向量输入所述解码器以生成所述知识信息,包括:确定所述拼接向量与所述解码器的隐状态的加权求和结果,根据所述加权求和结果动态调整所述解码器的注意力分配权重;
根据所述知识信息生成对话信息。
2.根据权利要求1所述的生成对话信息的控制方法,其特征在于,所述根据所述对话历史信息生成查询短语包括:将所述对话历史信息输入所述神经网络模型,以得到所述查询短语,和/或,所述根据所述知识信息生成对话信息包括:将所述知识信息与所述对话历史信息拼接得到的向量输入所述神经网络模型,以得到所述对话信息。
3.根据权利要求2所述的生成对话信息的控制方法,其特征在于,所述神经网络模型的训练过程包括:
获取训练数据;
根据所述训练数据和预设提示字符构建模型输入数据,其中,所述神经网络模型用于识别所述预设提示字符以生成对应的模型输出结果。
4.根据权利要求3所述的生成对话信息的控制方法,其特征在于,所述预设提示字符包括第一预设提示字符,所述训练数据包括对话历史训练数据和与所述对话历史训练数据相关联的查询短语训练数据;所述神经网络模型的训练过程还包括:
根据所述对话历史训练数据生成提示词;
将所述对话历史训练数据与所述提示词拼接得到对话历史拼接提示词,其中,通过所述第一预设提示字符将所述对话历史拼接提示词中的对话历史文本和所述提示词间隔划分;
将所述到对话历史拼接提示词输入初始的所述神经网络模型以得到第一模型输出结果;
根据所述第一模型输出结果和所述查询短语训练数据对初始的所述神经网络模型进行调整。
5.根据权利要求3所述的生成对话信息的控制方法,其特征在于,所述预设提示字符包括第二预设提示字符,所述训练数据包括对话历史训练数据和与所述对话历史训练数据相关联的知识性对话数据;所述神经网络模型的训练还包括:
根据所述对话历史训练数据和所述知识性对话数据生成对话历史拼接知识文本,其中,通过所述第二预设提示字符将所述对话历史拼接知识文本中的对话历史文本和知识文本间隔划分;
将所述对话历史拼接知识文本输入初始的所述神经网络模型以得到第二模型输出结果;
根据所述第二模型输出结果和所述知识性对话数据对初始的所述神经网络模型进行调整。
6.一种生成对话信息的控制装置,其特征在于,包括:
获取模块,用于获取对话历史信息;
查询短语生成模块,用于根据所述对话历史信息生成查询短语;
搜索引擎服务器模块,用于将所述查询短语发送至搜索引擎以得到多个查询数据;
知识生成模块,用于将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息,其中,所述神经网络模型包括编码器和解码器;所述将所述对话历史信息和所述查询数据拼接后输入预设的神经网络模型,以生成与所述对话历史信息相关联的知识信息包括:将所述对话历史信息与多个所述查询数据分别拼接,以生成多个拼接数据;将各所述拼接数据并行输入至所述编码器以得到多个向量表示,并将各个所述向量表示拼接得到拼接向量;将所述拼接向量输入所述解码器以生成所述知识信息,包括:确定所述拼接向量与所述解码器的隐状态的加权求和结果,根据所述加权求和结果动态调整所述解码器的注意力分配权重;
对话回复生成模块,用于根据所述知识信息生成对话信息。
7.一种计算设备,其特征在于,包括存储器和处理器,所述存储器,用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现如权利要求1至5任一项所述的生成对话信息的控制方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1至5任一项所述的生成对话信息的控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061212.6A CN116775848B (zh) | 2023-08-23 | 2023-08-23 | 生成对话信息的控制方法、装置、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311061212.6A CN116775848B (zh) | 2023-08-23 | 2023-08-23 | 生成对话信息的控制方法、装置、计算设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116775848A CN116775848A (zh) | 2023-09-19 |
CN116775848B true CN116775848B (zh) | 2023-11-07 |
Family
ID=87986293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311061212.6A Active CN116775848B (zh) | 2023-08-23 | 2023-08-23 | 生成对话信息的控制方法、装置、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116775848B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860862A (zh) * | 2021-02-01 | 2021-05-28 | 北京邮电大学 | 人机对话中智能体对话语句的生成方法和装置 |
CN113987155A (zh) * | 2021-11-25 | 2022-01-28 | 中国人民大学 | 一种融合知识图谱与大规模用户日志的会话式检索方法 |
CN115114461A (zh) * | 2022-04-21 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 多媒体数据的推荐方法、设备以及计算机可读存储介质 |
CN115238143A (zh) * | 2022-07-29 | 2022-10-25 | 平安科技(深圳)有限公司 | 查询语句生成方法及装置、模型训练方法、设备、介质 |
CN115455161A (zh) * | 2022-09-02 | 2022-12-09 | 北京百度网讯科技有限公司 | 对话处理方法、装置、电子设备及存储介质 |
CN116521832A (zh) * | 2023-03-10 | 2023-08-01 | 北京百度网讯科技有限公司 | 对话交互方法、装置及系统、电子设备和存储介质 |
CN116521893A (zh) * | 2023-04-28 | 2023-08-01 | 苏州浪潮智能科技有限公司 | 智能对话系统的控制方法、控制装置和电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230056680A1 (en) * | 2021-08-18 | 2023-02-23 | International Business Machines Corporation | Integrating dialog history into end-to-end spoken language understanding systems |
US20230177277A1 (en) * | 2021-12-06 | 2023-06-08 | International Business Machines Corporation | Contextual dialogue framework over dynamic tables |
-
2023
- 2023-08-23 CN CN202311061212.6A patent/CN116775848B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860862A (zh) * | 2021-02-01 | 2021-05-28 | 北京邮电大学 | 人机对话中智能体对话语句的生成方法和装置 |
CN113987155A (zh) * | 2021-11-25 | 2022-01-28 | 中国人民大学 | 一种融合知识图谱与大规模用户日志的会话式检索方法 |
CN115114461A (zh) * | 2022-04-21 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 多媒体数据的推荐方法、设备以及计算机可读存储介质 |
CN115238143A (zh) * | 2022-07-29 | 2022-10-25 | 平安科技(深圳)有限公司 | 查询语句生成方法及装置、模型训练方法、设备、介质 |
CN115455161A (zh) * | 2022-09-02 | 2022-12-09 | 北京百度网讯科技有限公司 | 对话处理方法、装置、电子设备及存储介质 |
CN116521832A (zh) * | 2023-03-10 | 2023-08-01 | 北京百度网讯科技有限公司 | 对话交互方法、装置及系统、电子设备和存储介质 |
CN116521893A (zh) * | 2023-04-28 | 2023-08-01 | 苏州浪潮智能科技有限公司 | 智能对话系统的控制方法、控制装置和电子设备 |
Non-Patent Citations (2)
Title |
---|
一种基于记忆网络的多轮对话下的意图识别方法;杨成彪;吕荣荣;吴刚;;电子技术与软件工程(第10期);全文 * |
基于分层编码的深度增强学习对话生成;赵宇晴;向阳;;计算机应用(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116775848A (zh) | 2023-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111897941B (zh) | 对话生成方法、网络训练方法、装置、存储介质及设备 | |
CN108255934B (zh) | 一种语音控制方法及装置 | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN108710704B (zh) | 对话状态的确定方法、装置、电子设备及存储介质 | |
CN109857865B (zh) | 一种文本分类方法及系统 | |
CN111191450A (zh) | 语料清洗方法、语料录入设备及计算机可读存储介质 | |
CN111462749A (zh) | 基于对话状态导向和知识库检索的端到端对话系统及方法 | |
CN116737908A (zh) | 知识问答方法、装置、设备和存储介质 | |
CN116127046A (zh) | 生成式大语言模型训练方法、基于模型的人机语音交互方法 | |
CN115238045B (zh) | 一种生成式事件论元抽取方法、系统及存储介质 | |
CN111858875A (zh) | 智能交互方法、装置、设备及存储介质 | |
CN113326367B (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN112905772B (zh) | 语义相关性分析方法、装置及相关产品 | |
KR20210088463A (ko) | 다중 라운드 대화 검색 방법, 장치, 저장매체 및 전자기기 | |
CN115221306B (zh) | 自动应答评价方法及装置 | |
CN116775848B (zh) | 生成对话信息的控制方法、装置、计算设备及存储介质 | |
CN116186219A (zh) | 一种人机对话交互方法方法、系统及存储介质 | |
CN112035648B (zh) | 一种用户数据的处理方法、装置及电子设备 | |
CN112506405B (zh) | 一种基于互联网监管领域的人工智能语音大屏指挥方法 | |
CN115114453A (zh) | 基于知识图谱的智能客服实现方法和装置 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN114036268A (zh) | 基于意图门的任务型多轮对话方法及系统 | |
Guo et al. | Optimization of Text Generation Method for Task-based Human-machine Dialogue System | |
Shao et al. | An Automatic Question Answering Method for Small-Scale Corpus | |
CN115544230A (zh) | 一种问句答案检索处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |