CN114064872A - 对话数据信息的智能存储方法、装置、设备及介质 - Google Patents
对话数据信息的智能存储方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114064872A CN114064872A CN202111353554.6A CN202111353554A CN114064872A CN 114064872 A CN114064872 A CN 114064872A CN 202111353554 A CN202111353554 A CN 202111353554A CN 114064872 A CN114064872 A CN 114064872A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- information
- data information
- dialogue data
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了对话数据信息的智能存储方法、装置、设备及介质,方法包括:根据对话请求建立对应对话服务,并对对话服务器中的对话内容进行监控得到对话数据信息并进行分类识别以得到意图分类结果,根据知识图谱对对话数据信息进行实体匹配得到关键实体信息后并根据意图分配结果进行过滤得到初始过滤对话信息,根据文本筛选模型从初始过滤对话信息中筛选出与意图分类结果相匹配的目标对话数据信息并存储至结构化数据表中。本发明属于语义解析技术领域,可获取与对话数据信息对应的意图分类结果,从对话数据信息中获取具有关键含义的目标对话数据信息进行结构化存储,避免对其中大量无用信息进行存储,大幅提高了对对话数据信息进行的效率及质量。
Description
技术领域
本发明涉及语义解析技术领域,属于智慧城市中对对话数据信息进行智能化存储的应用场景,尤其涉及一种对话数据信息的智能存储方法、装置、设备及介质。
背景技术
现有企业通常采用人机对话方式为客户提供智能服务,如采用人机语音对话方式接听客户来电并为客户提供智能语音服务,客户与对话机器人的对话信息会形成对话信息流,而这些对话信息流会形成数据量庞大的历史对话数据,历史对话数据可用于后续人机对话,或用于识别用户需求等下游的服务流程,因此需要将历史对话数据进行保存以方便后续使用。现有技术方法均是直接对所获取到的对话信息流进行保存得到以文本信息记载的历史对话数据,历史对话数据中信息未被分类识别,且其中包含大量无用信息,因此历史对话数据的存储质量不高,当后续需要使用历史对话数据,则需要对海量的历史对话数据进行识别、筛选,导致服务响应时间较长,客户需要等待较长时间才能获取服务结果,影响了客户的服务体验。
发明内容
本发明实施例提供了一种对话数据信息的智能存储方法、装置、设备及介质,旨在解决现有技术方法对对话数据进行存储过程中所存在的存储质量不高的问题。
第一方面,本发明实施例提供了一种对话数据信息的智能存储方法,方法包括:
若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,并对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息;
根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果;
根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息;
对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息;
根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息;
将所述目标对话数据信息及所述意图分类结果存储至预置的结构化数据表中。
第二方面,本发明实施例提供了一种对话数据信息的智能存储装置,其包括:
对话数据信息获取单元,用于若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,并对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息;
意图分类结果获取单元,用于根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果;
关键实体信息获取单元,用于根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息;
初始过滤对话信息获取单元,用于对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息;
目标对话数据信息获取单元,用于根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息;
信息存储单元,用于将所述目标对话数据信息及所述意图分类结果存储至预置的结构化数据表中。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的对话数据信息的智能存储方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的对话数据信息的智能存储方法。
本发明实施例提供了一种对话数据信息的智能存储方法、装置、设备及介质。根据对话请求建立对应对话服务,并对对话服务器中的对话内容进行监控得到对话数据信息并进行分类识别以得到意图分类结果,根据知识图谱对对话数据信息进行实体匹配得到关键实体信息后并根据意图分配结果进行过滤得到初始过滤对话信息,根据文本筛选模型从初始过滤对话信息中筛选出与意图分类结果相匹配的目标对话数据信息并存储至结构化数据表中。通过上述方法,可获取与对话数据信息对应的意图分类结果,并从对话数据信息中获取具有关键含义的目标对话数据信息进行结构化存储,避免对其中大量无用信息进行存储,从而大幅提高了对对话数据信息进行的效率及质量。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的对话数据信息的智能存储方法的流程示意图;
图2为本发明实施例提供的对话数据信息的智能存储方法的应用场景示意图;
图3为本发明实施例提供的对话数据信息的智能存储方法的子流程示意图;
图4为本发明实施例提供的对话数据信息的智能存储方法的另一子流程示意图;
图5为本发明实施例提供的对话数据信息的智能存储方法的另一子流程示意图;
图6为本发明实施例提供的对话数据信息的智能存储方法的另一子流程示意图;
图7为本发明实施例提供的对话数据信息的智能存储方法的另一子流程示意图;
图8为本发明实施例提供的对话数据信息的智能存储方法的另一流程示意图;
图9为本发明实施例提供的对话数据信息的智能存储装置的示意性框图;
图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1及图2,图1为本发明实施例提供的对话数据信息的智能存储方法的流程示意图,图2为本发明实施例提供的对话数据信息的智能存储方法的应用场景示意图;该对话数据信息的智能存储方法应用于云服务器10中,云服务器10与客户端20建立网络连接以实现数据信息的传输,该对话数据信息的智能存储方法通过安装于云服务器10中的应用软件进行执行,云服务器即是用于执行对话数据信息的智能存储方法以对从会话服务器中获取到的对话内容进行筛选并存储的服务器端,如企业或政府机构内配置的服务器端,客户端20即是可与云服务器10之间建立对话服务并进行对话的终端设备,如台式电脑、笔记本电脑、平板电脑或手机等。如图1所示,该方法包括步骤S110~S160。
S110、若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,并对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息。
若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,同时对所述对话服务中的对话内容进行实时监控,以获取当前一轮对话所对应的对话数据信息。云服务器可接收来自客户端的对话请求,对话请求可以是用于建立语音对话服务的请求信息,也可以是用于建立文字对话服务的请求信息,对话请求中可包含客户端的终端地址、终端类型、服务请求类型等信息,终端地址即为客户端的互联网地址信息,终端类型即为客户端的具体类型信息(如手机、台式电脑或笔记本电脑),服务请求类型即为请求建立服务器的具体类型信息(如语音对话或文字对话)。云服务器接收到对话请求后,即可根据对话请求与该客户端建立对话服务,并基于所建立的对话服务发送初始对话信息,例如,初始对话信息可以是:您好,请问有什么可以帮到您。云服务器对对话服务中的对话内容进行实时监控,以获取每一轮对话所对应的对话数据信息,则一轮对话的对话数据信息包含后续客户端发送至服务器的对话回复信息以及服务器对该对话服务信息进行答复的答复信息,云服务器获取到当前一轮对话的对话数据信息即进行后续处理。此外,若对话数据信息为文本信息,则直接进行后续处理,若对话数据信息为语音信息,则需要对应转换为文本信息后再进行后续处理。
S120、根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果。
根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果。可对当前一轮对话的对话数据信息进行分类识别,意图识别模型即为对对话数据信息进行意图识别的具体模型,其中,所述意图识别模型包括语料标注规则及分类神经网络,语料标注规则即为对对话数据信息中所包含的语料信息进行标注的具体规则,分类神经网络即为基于人工智能所构建的神经网络模型,在使用分类神经网络模型之前,还可通过训练语料数据集对分类神经网络模型进行训练,以使用训练后的分类神经网络模型从而提高分类识别的准确性。
在一实施例中,如图3所示,步骤S120包括子步骤S121和S122。
S121、根据所述语料标注规则对当前一轮对话的对话数据信息进行语料标注,得到对话语料标注信息。
具体的,语料标注规则中包括词组类型标注规则、序列数据标注规则、槽位数据标注规则及编码标注规则,根据词组类型标注规则对对话数据信息进行标注得到词组类型标注信息,根据数据标注规则对对话数据信息进行标注得到序列数据标注信息,根据槽位数据标注规则对对话数据信息进行标注得到槽位数据标注信息,根据编码标注规则对对话数据信息进行标注得到编码标注信息,获取四种标注信息进行组合作为对应的对话语料标注信息,对话语料标注信息即可从多方面对对话数据信息的语料特征进行量化表征。具体的,可根据词组类型标注规则对对话数据信息中所包含的字符或词组进行类型识别及标注,词组类型包括名词、动词、副词等,每一组词组类型对应一种词组标注;可根据序列数据标注规则对对话数据信息中所包含的每一个字符分别进行序列标注,序列数据标注规则可以是基于BIO格式的标注规则,如对于“A产品在哪里办理”进行序列标注,其中“A”的序列标注为“B-Ins”,“产”及“品”的序列标注均为“I-Ins”,其余字符的序列标注均为“O”;槽位数据标注规则即为对对话数据信息中所包含的时间、地址等信息进行识别及标注的具体规则,若对话数据信息中某一段信息为时间信息,则对应的槽位标注为“S”,若其中某一段信息为地址信息则对应的槽位标注为“D”,其他信息对应的槽位标注为“Q”;编码标注规则可对对话数据信息中所包含的每一个字符进行编码标注,不同字符可对应获取到不同的编码信息,相同字符则对应同一编码信息,编码信息可以是数字信息,则获取对话数据信息中每一字符对应的编码信息并进行顺序组合即可得到对应的编码标注信息。
S122、根据所述分类神经网络对所述对话语料标注信息进行分类,以获取与所述对话数据信息对应的意图分类结果。
根据分类神经网络对对话语料标注信息进行分类,分类神经网络由一个输入层、至少一个中间层及多个输出层组成,输入层与首个中间层之间,中间层与前后相邻其他中间层之间,末尾中间层与输出层之间均通过关联公式进行关联连接,关联公式可采用一次函数进行表示。可获取对话数据信息每一字符分别对应的多个标注,并将每一字符的多个标准由输入层输入分类神经网络,则一个字符需占用输入层中四个输入节点,输出层中包含多个输出节点,每一输出节点对应一个意图分类,意图分类可以是产品咨询、疾病咨询、个人信息查询等。获取输出层中每一输出节点的输出节点值,输出节点值可以是当前对话语料标注信息与一个意图分类所对应的匹配度,将输出节点值最大的一个输出节点所对应的意图分类确定为意图分类结果。
S130、根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息。
根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息。云服务器中还预先存储有知识图谱,知识图谱由多个实体进行关联连接组成,实体与实体之间存在从属、并列、包含等关联关系,知识图谱中还包含与每一实体对应的属性信息,可基于对话数据信息中所包含的词组与知识图谱中的实体进行匹配,以获取对话数据信息中与任一实体相匹配的词组作为关键实体,从对话数据信息中获取到的关键实体及关键实体对应的属性信息即可作为关键实体信息。
S140、对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息。
对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息。对关键实体信息与意图分类结果进行匹配即可得到实体匹配结果,并根据关键实体信息的实体匹配结果对对话数据信息进行过滤,可将对话数据信息中不重要的实体进行过滤,得到过滤后的初始过滤对话信息。
在一实施例中,如图4所示,步骤S140包括子步骤S141、S142和S143。
S141、判断所述关键实体信息中每一关键实体所属类型是否与所述意图分类结果相匹配,以得到所述实体匹配结果;S142、根据所述实体匹配结果将所属类型不与所述意图分类结果相匹配的所述关键实体确定为过滤关键实体。
关键实体信息中包含每一关键实体对应的属性信息,属性信息中包含关键实体所属类型,所属类型即为关键实体所从属的实体类型,例如,所属类型可以是产品实体、疾病实体等。可基于关键实体的所属类型分别判断每一关键实体是否与意图分类结果相匹配,得到对应的实体匹配结果。可根据实体匹配结果将所属类型不与意图分类结果相匹配的关键实体确定为过滤关键实体,则过滤关键实体即为需要从对话数据信息中进行滤除的信息。
S143、将所述对话数据信息中与所述过滤关键实体相匹配的文本信息进行过滤,得到所述初始过滤对话信息。
对话数据信息中包含由字符组成的文本信息,将对话数据信息中与过滤关键实体相匹配的文本信息进行过滤,则过滤后保留下来的文本信息即为初始过滤对话信息。
S150、根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息。
根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息。可根据云服务器中预存先存储的文本筛选模型对初始过滤对话信息进行进一步筛选,得到与意图分类结果相匹配的目标对话数据信息。具体的,文本筛选模型即为对文本信息进行筛选的神经网络模型,在使用文本筛选模型之前,还可通过文本筛选数据集对文本筛选模型进行训练,文本筛选数据集中包含多条文本筛选样本,以及每一文本筛选样本中每一字符对应的筛选标注,筛选标注为“+”则该表示字符需保留,筛选标注为“-”则表示该字符需筛除,通过初始文本筛选模型对文本筛选样本进行筛选分析得到预测结果,并对比预测结果与筛选标注之间的差异从而对初始文本筛选模型进行迭代训练,得到训练后的文本筛选模型进行使用。
在一实施例中,如图5所示,步骤S150包括子步骤S151、S152、S153和S154。
S151、获取所述文本筛选模型中与所述意图分类结果相匹配的一个筛选神经网络作为目标筛选神经网络。
文本筛选模型中可包含多个筛选神经网络,每一筛选神经网络由一个意图分类所对应的文本筛选数据集训练得到,则一个筛选神经网络专用于对一个意图分类相匹配的对话信息进行筛选分析。可获取文本筛选模型中与意图分类结果相匹配的一个筛选神经网络作为目标筛选神经网络,并基于目标筛选神经网络对初始过滤对话信息进行筛选。
S152、从所述对话语料标注信息中获取与所述初始过滤对话信息相匹配的初始语料标注信息。
对话语料标注信息中包含对话数据信息中所有字符对应的标注信息,则话语料标注信息中部分标注信息在进行筛选分析时无需使用到,可从语料标注信息中获取与初始过滤对话信息所包含字符相匹配的标注信息作为初始语料标注信息。
S153、将所述初始语料标注信息输入至所述目标筛选神经网络进行筛选分析,以获取所述初始语料标注信息中每一字符对应的筛选标签。
将初始语料标注信息中每一字符对应的标注信息有目标筛选神经网络的输入层输入,并由其输出层获取对应的输出结果,输出结果中包含每一字符对应的筛选标签,筛选标签可以是“+”或“-”。
S154、根据所述筛选标签对所述初始过滤对话信息中的字符进行筛选,以从所述初始过滤对话信息中筛选得到对应的目标对话数据信息。
初始语料标注信息中每一字符的标注信息即与初始过滤对话信息中的字符相对应,获取初始语料标注信息中字符的筛选标签也即是获取到初始过滤对话信息中的字符的筛选标签,可根据筛选标签对初始过滤对话信息所包含的字符进行进一步筛选,具体的,保留筛选标签为“+”的字符,筛除筛选标签为“-”的字符,从而得到与初始过滤对话信息对应的目标对话数据信息。
S160、将所述目标对话数据信息及所述意图分类结果存储至预置的结构化数据表中。
将所述目标对话数据信息及所述意图分类结果存储至结构化数据表中;获取到目标对话数据信息后,即可对目标对应数据信息及意图分类结果进行整理并存储至结构化数据表中,结构化数据表即为云服务器中预先配置的用于对结构化数据进行存储的数据表。
在一实施例中,如图6所示,步骤S160包括子步骤S161、S162和S163。
S161、获取所述对话语料标注信息中与所述目标对话数据信息对应的标注标签。
首先可获取对话语料标注信息中与目标对话数据信息所包含字符对应的标签信息作为标注标签,也即是通过目标对话数据信息所包含的字符对对话语料标注信息进行筛选,仅从中获取目标对话数据信息中字符对应的标注信息。
S162、将所述目标对话数据信息、所述标注标签及所述意图分类结果进行结构化整理得到结构化对话数据信息。
将目标对话数据信息与标注标签及意图分类结果进行结构化整理,以生成结构化的结构化对话数据信息,则目标对话数据信息中每一字符的标注信息,以及与目标对话数据信息对应的意图分类结果,分别作为结构化对话数据信息中的结构化数据单元。
S163、将所述结构化对话数据信息存储至所述结构化数据表中。
将所得到的结构化对话数据信息存储至结构化数据表中,具体的,可在结构化数据表中为当前客户端的客户端地址分配一块存储空间,并将当前客户端地址所对应的所有结构化对话数据信息存储至该存储空间中,则所存储的结构化对话数据信息也即是采用结构化方式对对话数据信息中的重要信息进行保存的数据信息。
在一实施例中,如图7所示,步骤S163之后还包括步骤S164。
S164、将所述结构化对话数据信息上传至区块链进行存储。
基于结构化对话数据信息得到对应的摘要信息,具体来说,摘要信息由结构化对话数据信息进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证结构化对话数据信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在一实施例中,如图8所示,步骤S160之后还包括步骤S170。
S170、若到达关闭时间点之前未接收到所述客户端反馈的对话回复信息,则关闭所述对话服务;其中,所述关闭时间点为与所述对话数据信息的获取时间之间间隔预置间隔时长的时间点。
若在对话数据信息的获取时间之后一定时间内未接收到客户端反馈的对话回复信息,则关闭与该客户端对应的对话服务,关闭对话服务即可结束与该客户端之间的对话,关闭对话服务可以节省服务器资源,从而使云服务器更高效地提供服务。关闭时间点可以是对话数据信息的获取时间之后间隔预置间隔时长的时间点,例如间隔时长可配置为3分钟。若到达关闭时间点之前接收到来自所述客户端反馈的对话回复信息,则可返回执行所述对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息的步骤。具体的,接收对话回复信息并基于对话回复信息与结构化数据表中所存储的信息对当前接收的对话回复信息进行智能答复得到答复信息,将答复信息发送至该客户端后,获取答复信息与对话回复信息作为当前一轮对话所对应的对话数据信息,并可继续执行后续步骤。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等对对话数据信息进行智能化存储的应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的对话数据信息的智能存储方法中,根据对话请求建立对应对话服务,并对对话服务器中的对话内容进行监控得到对话数据信息并进行分类识别以得到意图分类结果,根据知识图谱对对话数据信息进行实体匹配得到关键实体信息后并根据意图分配结果进行过滤得到初始过滤对话信息,根据文本筛选模型从初始过滤对话信息中筛选出与意图分类结果相匹配的目标对话数据信息并存储至结构化数据表中。通过上述方法,可获取与对话数据信息对应的意图分类结果,并从对话数据信息中获取具有关键含义的目标对话数据信息进行结构化存储,避免对其中大量无用信息进行存储,从而大幅提高了对对话数据信息进行的效率及质量。
本发明实施例还提供一种对话数据信息的智能存储装置,该对话数据信息的智能存储装置可配置于云服务器10中,该对话数据信息的智能存储装置用于执行前述的对话数据信息的智能存储方法的任一实施例。具体地,请参阅图9,图9为本发明实施例提供的对话数据信息的智能存储装置的示意性框图。
如图9所示,对话数据信息的智能存储装置100包括对话数据信息获取单元110、意图分类结果获取单元120、关键实体信息获取单元130、初始过滤对话信息获取单元140、目标对话数据信息获取单元150和信息存储单元160。
对话数据信息获取单元110,用于若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,并对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息。
意图分类结果获取单元120,用于根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果。
在一具体实施例中,所述意图分类结果获取单元120包括子单元:对话语料标注信息获取单元,用于根据所述语料标注规则对当前一轮对话的对话数据信息进行语料标注,得到对话语料标注信息;分类单元,用于根据所述分类神经网络对所述对话语料标注信息进行分类,以获取与所述对话数据信息对应的意图分类结果。
关键实体信息获取单元130,用于根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息。
初始过滤对话信息获取单元140,用于对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息。
在一具体实施例中,所述初始过滤对话信息获取单元140包括子单元:实体匹配结果获取单元,用于判断所述关键实体信息中每一关键实体所属类型是否与所述意图分类结果相匹配,以得到所述实体匹配结果;过滤关键实体获取单元,用于根据所述实体匹配结果将所属类型不与所述意图分类结果相匹配的所述关键实体确定为过滤关键实体;文本信息过滤单元,用于将所述对话数据信息中与所述过滤关键实体相匹配的文本信息进行过滤,得到所述初始过滤对话信息。
目标对话数据信息获取单元150,用于根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息。
在一具体实施例中,所述目标对话数据信息获取单元150包括子单元:目标筛选神经网络获取单元,用于获取所述文本筛选模型中与所述意图分类结果相匹配的一个筛选神经网络作为目标筛选神经网络;初始语料标注信息获取单元,用于从所述对话语料标注信息中获取与所述初始过滤对话信息相匹配的初始语料标注信息;筛选标签获取单元,用于将所述初始语料标注信息输入至所述目标筛选神经网络进行筛选分析,以获取所述初始语料标注信息中每一字符对应的筛选标签;字符筛选单元,用于根据所述筛选标签对所述初始过滤对话信息中的字符进行筛选,以从所述初始过滤对话信息中筛选得到对应的目标对话数据信息。
信息存储单元160,用于将所述目标对话数据信息及所述意图分类结果存储至预置的结构化数据表中。
在一具体实施例中,所述信息存储单元160包括子单元:标注标签获取单元,用于获取所述对话语料标注信息中与所述目标对话数据信息对应的标注标签;结构化整理单元,用于将所述目标对话数据信息、所述标注标签及所述意图分类结果进行结构化整理得到结构化对话数据信息;存储单元,用于将所述结构化对话数据信息存储至所述结构化数据表中。
在一具体实施例中,所述信息存储单元160还包括子单元:上传存储单元,用于将所述结构化对话数据信息上传至区块链进行存储。
在一具体实施例中,所述对话数据信息的智能存储装置100还包括子单元:对话服务关闭单元,用于若到达关闭时间点之前未接收到所述客户端反馈的对话回复信息,则关闭所述对话服务;其中,所述关闭时间点为与所述对话数据信息的获取时间之间间隔预置间隔时长的时间点。
在本发明实施例所提供的对话数据信息的智能存储装置应用上述对话数据信息的智能存储方法,根据对话请求建立对应对话服务,并对对话服务器中的对话内容进行监控得到对话数据信息并进行分类识别以得到意图分类结果,根据知识图谱对对话数据信息进行实体匹配得到关键实体信息后并根据意图分配结果进行过滤得到初始过滤对话信息,根据文本筛选模型从初始过滤对话信息中筛选出与意图分类结果相匹配的目标对话数据信息并存储至结构化数据表中。通过上述方法,可获取与对话数据信息对应的意图分类结果,并从对话数据信息中获取具有关键含义的目标对话数据信息进行结构化存储,避免对其中大量无用信息进行存储,从而大幅提高了对对话数据信息进行的效率及质量。
上述对话数据信息的智能存储装置可以实现为计算机程序的形式,该计算机程序可以在如图10所示的计算机设备上运行。
请参阅图10,图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行对话数据信息的智能存储方法以对对话数据信息进行智能化存储的云服务器。
参阅图10,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行对话数据信息的智能存储方法,其中,存储介质503可以为易失性的存储介质或非易失性的存储介质。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行对话数据信息的智能存储方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图10中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的对话数据信息的智能存储方法中对应的功能。
本领域技术人员可以理解,图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图10所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为易失性或非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的对话数据信息的智能存储方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种对话数据信息的智能存储方法,其特征在于,所述方法应用于云服务器中,所述云服务器与客户端建立网络连接以实现数据信息的传输,所述方法包括:
若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,并对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息;
根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果;
根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息;
对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息;
根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息;
将所述目标对话数据信息及所述意图分类结果存储至预置的结构化数据表中。
2.根据权利要求1所述的对话数据信息的智能存储方法,其特征在于,所述意图识别模型包括语料标注规则及分类神经网络,所述根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果,包括:
根据所述语料标注规则对当前一轮对话的对话数据信息进行语料标注,得到对话语料标注信息;
根据所述分类神经网络对所述对话语料标注信息进行分类,以获取与所述对话数据信息对应的意图分类结果。
3.根据权利要求1所述的对话数据信息的智能存储方法,其特征在于,所述对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息,包括:
判断所述关键实体信息中每一关键实体所属类型是否与所述意图分类结果相匹配,以得到所述实体匹配结果;
根据所述实体匹配结果将所属类型不与所述意图分类结果相匹配的所述关键实体确定为过滤关键实体;
将所述对话数据信息中与所述过滤关键实体相匹配的文本信息进行过滤,得到所述初始过滤对话信息。
4.根据权利要求1所述的对话数据信息的智能存储方法,其特征在于,所述根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息,包括:
获取所述文本筛选模型中与所述意图分类结果相匹配的一个筛选神经网络作为目标筛选神经网络;
从所述对话语料标注信息中获取与所述初始过滤对话信息相匹配的初始语料标注信息;
将所述初始语料标注信息输入至所述目标筛选神经网络进行筛选分析,以获取所述初始语料标注信息中每一字符对应的筛选标签;
根据所述筛选标签对所述初始过滤对话信息中的字符进行筛选,以从所述初始过滤对话信息中筛选得到对应的目标对话数据信息。
5.根据权利要求1所述的对话数据信息的智能存储方法,其特征在于,所述将所述目标对话数据信息及所述意图分类结果存储至结构化数据表中,包括:
获取所述对话语料标注信息中与所述目标对话数据信息对应的标注标签;
将所述目标对话数据信息、所述标注标签及所述意图分类结果进行结构化整理得到结构化对话数据信息;
将所述结构化对话数据信息存储至所述结构化数据表中。
6.根据权利要求1所述的对话数据信息的智能存储方法,其特征在于,所述将所述结构化对话数据信息存储至所述结构化数据表中之后,还包括:
将所述结构化对话数据信息上传至区块链进行存储。
7.根据权利要求1所述的对话数据信息的智能存储方法,其特征在于,所述将所述目标对话数据信息及所述意图分类结果存储至结构化数据表中之后,还包括:
若到达关闭时间点之前未接收到所述客户端反馈的对话回复信息,则关闭所述对话服务;其中,所述关闭时间点为与所述对话数据信息的获取时间之间间隔预置间隔时长的时间点。
8.一种对话数据信息的智能存储装置,其特征在于,所述装置配置于云服务器中,所述云服务器与客户端建立网络连接以实现数据信息的传输,包括:
对话数据信息获取单元,用于若接收到来自所述客户端的对话请求,建立与所述对话请求对应的对话服务,并对所述对话服务中的对话内容进行实时监控以获取当前一轮对话所对应的对话数据信息;
意图分类结果获取单元,用于根据预置的意图识别模型对所述当前一轮对话的对话数据信息进行分类识别,以获取对应的意图分类结果;
关键实体信息获取单元,用于根据预存的知识图谱对所述对话数据信息进行实体匹配,以获取与所述对话数据信息相匹配的关键实体信息;
初始过滤对话信息获取单元,用于对所述关键实体信息与所述意图分类结果进行匹配,以根据实体匹配结果对所述对话数据信息进行过滤得到对应的初始过滤对话信息;
目标对话数据信息获取单元,用于根据预存的文本筛选模型从所述初始过滤对话信息中筛选出与所述意图分类结果相匹配的文本信息作为目标对话数据信息;
信息存储单元,用于将所述目标对话数据信息及所述意图分类结果存储至预置的结构化数据表中。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的对话数据信息的智能存储方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的对话数据信息的智能存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111353554.6A CN114064872A (zh) | 2021-11-16 | 2021-11-16 | 对话数据信息的智能存储方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111353554.6A CN114064872A (zh) | 2021-11-16 | 2021-11-16 | 对话数据信息的智能存储方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064872A true CN114064872A (zh) | 2022-02-18 |
Family
ID=80273467
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111353554.6A Pending CN114064872A (zh) | 2021-11-16 | 2021-11-16 | 对话数据信息的智能存储方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064872A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706969A (zh) * | 2022-05-31 | 2022-07-05 | 深圳追一科技有限公司 | 关注内容获取方法、装置、电子设备及存储介质 |
-
2021
- 2021-11-16 CN CN202111353554.6A patent/CN114064872A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114706969A (zh) * | 2022-05-31 | 2022-07-05 | 深圳追一科技有限公司 | 关注内容获取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11816078B2 (en) | Automatic entity resolution with rules detection and generation system | |
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN107871166B (zh) | 针对机器学习的特征处理方法及特征处理系统 | |
CN112328742A (zh) | 基于人工智能的培训方法、装置、计算机设备及存储介质 | |
CN111461180A (zh) | 样本分类方法、装置、计算机设备及存储介质 | |
CN113554175B (zh) | 一种知识图谱构建方法、装置、可读存储介质及终端设备 | |
CN116882520A (zh) | 针对预定预测问题的预测方法及系统 | |
CN114491084B (zh) | 基于自编码器的关系网络信息挖掘方法、装置及设备 | |
CN114064872A (zh) | 对话数据信息的智能存储方法、装置、设备及介质 | |
CN113239668B (zh) | 关键词智能提取方法、装置、计算机设备及存储介质 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
WO2021114634A1 (zh) | 文本标注方法、设备及存储介质 | |
CN113992668B (zh) | 基于多并发的信息实时传输方法、装置、设备及介质 | |
CN111737577A (zh) | 一种基于业务平台的数据查询方法、装置、设备和介质 | |
CN114969018B (zh) | 一种数据监控方法及系统 | |
CN113535815B (zh) | 适于电子商务的业务操作行为大数据挖掘方法及系统 | |
Foote et al. | A computational analysis of social media scholarship | |
CN113283232A (zh) | 自动解析文本中隐私信息的方法和装置 | |
CN113592662A (zh) | 数据信息智能化处理方法、装置、设备及介质 | |
CN113239381A (zh) | 一种数据安全加密方法 | |
CN111090723A (zh) | 一种基于知识图谱的电网安全生产内容推荐方法 | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 | |
CN110232328A (zh) | 一种征信报告解析方法、装置及计算机可读存储介质 | |
CN116303375B (zh) | 基于大数据的数据库维护分析方法、服务器及介质 | |
CN110119406B (zh) | 实时任务记录的核对方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |