CN116483978A - 基于知识可视化的线上会话大数据存储方法及软件产品 - Google Patents

基于知识可视化的线上会话大数据存储方法及软件产品 Download PDF

Info

Publication number
CN116483978A
CN116483978A CN202310501225.4A CN202310501225A CN116483978A CN 116483978 A CN116483978 A CN 116483978A CN 202310501225 A CN202310501225 A CN 202310501225A CN 116483978 A CN116483978 A CN 116483978A
Authority
CN
China
Prior art keywords
text
windowed
interactive
unit
structural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310501225.4A
Other languages
English (en)
Inventor
魏鑫
徐露
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Shangying Electronic Technology Co ltd
Original Assignee
Shenyang Shangying Electronic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Shangying Electronic Technology Co ltd filed Critical Shenyang Shangying Electronic Technology Co ltd
Priority to CN202310501225.4A priority Critical patent/CN116483978A/zh
Publication of CN116483978A publication Critical patent/CN116483978A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能、可视化和数据库技术领域,尤其涉及一种基于知识可视化的线上会话大数据存储方法及软件产品,通过利用人工智能神经网络对诸如元宇宙服务、电子商务服务、互联网安防服务、智慧城市服务等业务会话的窗口化互动对话文本单元进行结构化描述知识挖掘和处理,能够确定出待存储线上会话文本大数据的结构化存储决策知识,确保了结构化描述知识挖掘的准确性,还能够降低结构化描述知识挖掘过程的处理开销,提升结构化描述知识挖掘的时效性。

Description

基于知识可视化的线上会话大数据存储方法及软件产品
技术领域
本发明涉及人工智能、可视化和数据库技术领域,尤其涉及一种基于知识可视化的线上会话大数据存储方法及软件产品。
背景技术
知识可视化是在大数据、云计算、人工智能和可视化基础上综合发展起来的新兴领域,知识可视化有助于知识特征的传递、记载和表达,在人工智能的专家系统(ExpertSystem)基础上,通过专家知识可视化的升级,能够提高知识可视化应用的范围。
以数据库的结构化存储为例,现如今,各类在线业务会话记载了诸如数字孪生服务、元宇宙服务、电子商务服务、在线办公服务、互联网安防服务、数据共享服务、数据匿名服务、智慧医疗服务、智慧城市服务等一系列在线服务领域的内容,为提高存储效率和后期使用的便捷性,对这些在线业务会话进行结构化存储势在必行。在实现在线业务会话的结构化存储过程中,针对在线业务会话的结构化特征挖掘是非常重要的一环。
发明内容
本发明提供一种基于知识可视化的线上会话大数据存储方法及软件产品,通过利用人工智能神经网络对诸如元宇宙服务、电子商务服务、互联网安防服务、智慧城市服务等业务会话的窗口化互动对话文本单元进行结构化描述知识挖掘和处理,能够确定出待存储线上会话文本大数据的结构化存储决策知识,确保了结构化描述知识挖掘的准确性,还能够降低结构化描述知识挖掘过程的处理开销,提升结构化描述知识挖掘的时效性,为实现上述技术目的,本发明采用如下技术方案。
第一方面是一种基于知识可视化的线上会话大数据存储方法,应用于人工智能服务器,所述方法包括:
将待存储线上会话文本大数据中的各个界面互动对话文本,分别拆解为第一数目的第一窗口化互动对话文本单元;
对于所述待存储线上会话文本大数据中的目标界面互动对话文本,获取关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值,并结合所述差异度量值,将所述关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元;其中,所述关联界面互动对话文本,为所述待存储线上会话文本大数据中除所述目标界面互动对话文本以外的界面互动对话文本,所述第二数目与所述差异度量值具有设定关系;
对于所述目标界面互动对话文本中的各所述第一窗口化互动对话文本单元,以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到所述第一窗口化互动对话文本单元的文本结构化描述知识;
对各所述界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识。
在一些可能的实施例中,所述获取关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值,包括:
获取所述关联界面互动对话文本与所述目标界面互动对话文本之间的界面互动对话文本的文本数目,并将所述文本数目作为所述关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值。
在一些可能的实施例中,所述获取关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值,包括:
获取所述关联界面互动对话文本的文本生成时刻、与所述目标界面互动对话文本的文本生成时刻间的差值,并将所述差值作为所述关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值。
在一些可能的实施例中,所述结合所述差异度量值,将所述关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元之前,所述方法还包括:
获取差异度量值和拆解数目间的关联特征;其中,所述拆解数目用于所述关联界面互动对话文本的拆解;
结合所述差异度量值以及所述关联特征,确定所述差异度量值对应的目标拆解数目,并将所述目标拆解数目作为所述第二数目。
在一些可能的实施例中,所述结合所述差异度量值,将所述关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元之前,所述方法还包括:
获取所述关联界面互动对话文本对应的多个差异度量值约束范围,每个所述差异度量值约束范围匹配了相应的拆解数目,所述拆解数目,用于所述关联界面互动对话文本的拆解;
从所述多个差异度量值约束范围中,确定所述差异度量值所处的目标差异度量值约束范围,并将所述目标差异度量值约束范围对应的拆解数目作为所述第二数目。
在一些可能的实施例中,所述以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到所述第一窗口化互动对话文本单元的文本结构化描述知识,包括:
获取所述目标界面互动对话文本包括的第一窗口化互动对话文本单元的文本单元结构化语义,并获取所述关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义;
分别确定各所述文本单元结构化语义与所述第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数;
结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述文本单元结构化语义进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义;
将所述第一窗口化互动对话文本单元的文本单元结构化语义和所述单元结构化加权语义进行第二加权操作,得到所述第一窗口化互动对话文本单元的文本结构化描述知识。
在一些可能的实施例中,所述结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述文本单元结构化语义进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义,包括:
对各所述文本单元结构化语义对应的结构化语义共性系数进行数值映射处理,并将数值映射结果作为相应文本单元结构化语义的语义强化因子;
结合各所述文本单元结构化语义的语义强化因子,对多个所述文本单元结构化语义进行语义强化求和,得到所述第一窗口化互动对话文本单元的单元结构化加权语义。
在一些可能的实施例中,所述文本单元结构化语义包括连接语义特征、请求语义特征以及应答语义特征;
所述分别确定各所述文本单元结构化语义与所述第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数,包括:分别确定各所述窗口化互动对话文本单元的请求语义特征、与所述第一窗口化互动对话文本单元的连接语义特征之间的特征共性评分,并将所述特征共性评分作为所述结构化语义共性系数;
所述结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述文本单元结构化语义进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义,包括:结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述应答语义特征进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义。
在一些可能的实施例中,所述文本单元结构化语义包括连接语义特征、请求语义特征以及应答语义特征;所述获取所述关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义,包括:
将所述关联界面互动对话文本包括的第二窗口化互动对话文本单元进行文本编码处理,得到所述第二窗口化互动对话文本单元的窗口化文本单元编码数据;
对所述窗口化文本单元编码数据进行特征映射处理,得到所述第二窗口化互动对话文本单元的第一初始连接语义特征、第一初始请求语义特征以及第一初始应答语义特征;
对所述第一初始连接语义特征进行第一特征下采样,得到所述连接语义特征;
对所述第一初始请求语义特征进行第二特征下采样,并结合所述差异度量值,对所述第二特征下采样的生成结果进行处理,得到所述请求语义特征;
对所述第一初始应答语义特征进行第三特征下采样,并结合所述差异度量值,对所述第三特征下采样的生成结果进行处理,得到所述应答语义特征。
在一些可能的实施例中,所述结合所述差异度量值,对所述第二特征下采样的生成结果进行处理,得到所述请求语义特征,包括:
当所述差异度量值达到差异度量限值时,对所述第二特征下采样的生成结果进行第一结构化描述知识挖掘处理,得到所述请求语义特征;
当所述差异度量值没有达到所述差异度量限值时,对所述第二特征下采样的生成结果进行第二结构化描述知识挖掘处理,得到所述请求语义特征;
其中,所述第一结构化描述知识挖掘处理生成的请求语义特征的细节承载量,低于所述第二结构化描述知识挖掘处理生成的请求语义特征的细节承载量。
在一些可能的实施例中,所述以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到所述第一窗口化互动对话文本单元的文本结构化描述知识,包括:
以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行至少两轮的结构化描述知识挖掘,得到每轮结构化描述知识挖掘所得到的初始文本结构化描述知识;
将每轮结构化描述知识挖掘所得到的初始文本结构化描述知识进行组合,得到所述第一窗口化互动对话文本单元的文本结构化描述知识。
在一些可能的实施例中,所述对各所述界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识,包括:
对于各所述界面互动对话文本,将所述界面互动对话文本中至少两个连续的所述第一窗口化互动对话文本单元的文本结构化描述知识进行组合,得到所述界面互动对话文本对应的多个初始文本结构化描述知识;
对于每个所述初始文本结构化描述知识,以所述多个初始文本结构化描述知识以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元的语义知识为基准,对所述初始文本结构化描述知识进行结构化描述知识挖掘,得到所述界面互动对话文本对应的文本结构化描述组合知识;
对各所述界面互动对话文本对应的文本结构化描述组合知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识。
第二方面是一种人工智能服务器,包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述人工智能服务器执行第一方面的方法。
第三方面是一种用于实现基于知识可视化的线上会话大数据存储方法的软件产品,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行第一方面的方法。
第四方面是一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行第一方面的方法。
根据本发明的一个实施例,将待存储线上会话文本大数据中的各个界面互动对话文本分别拆解为第一数目的第一窗口化互动对话文本单元,对于待存储线上会话文本大数据中的目标界面互动对话文本,获取关联界面互动对话文本与目标界面互动对话文本间的差异度量值,并结合差异度量值将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元;这样一来,可针对目标界面互动对话文本中的各第一窗口化互动对话文本单元,以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识,并对各界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到待存储线上会话文本大数据的结构化存储决策知识,确保了线上会话文本大数据的结构化描述知识挖掘准确性;此外,该关联界面互动对话文本为待存储线上会话文本大数据中除目标界面互动对话文本以外的界面互动对话文本,该第二数目与关联界面互动对话文本与目标界面互动对话文本间的差异度量值具有设定关系,换言之,伴随关联界面互动对话文本与目标界面互动对话文本间的差异度量值的增大,该关联界面互动对话文本包括的窗口化互动对话文本单元的数目会减小;这样一来,在以关联界面互动对话文本包括的窗口化互动对话文本单元为基准对目标界面互动对话文本的窗口化互动对话文本单元进行结构化描述知识挖掘时,降低了结构化描述知识挖掘过程的处理开销,提升了线上会话文本大数据的结构化描述知识挖掘的时效性。
附图说明
图1为本发明实施例提供的基于知识可视化的线上会话大数据存储方法的流程示意图。
具体实施方式
以下,术语“第一”、“第二”和“第三”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”或“第三”等的特征可以明示或者隐含地包括一个或者更多个该特征。
图1示出了本发明实施例提供的基于知识可视化的线上会话大数据存储方法的流程示意图,基于知识可视化的线上会话大数据存储方法可以通过人工智能服务器实现,人工智能服务器可以包括存储器和处理器;所述存储器和所述处理器耦合;所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令;其中,当所述处理器执行所述计算机指令时,使得所述人工智能服务器执行S101-S104。
在本发明实施例中,涉及到用户大数据等相关的内容,当本发明实施例运用到具体产品或技术中时,需要获得用户授权,且相关数据的收集、使用和处理需要合规。
S101:人工智能服务器将待存储线上会话文本大数据中的各个界面互动对话文本,分别拆解为第一数目的第一窗口化互动对话文本单元。
对于S101而言,人工智能服务器首先获取待存储线上会话文本大数据,该待存储线上会话文本大数据包括多个界面互动对话文本(或理解为界面互动对话信息);然后针对每个界面互动对话文本分别实施如下操作:将该界面互动对话文本进行拆解,得到该界面互动对话文本包括的第一窗口化互动对话文本单元,在应用过程中,可以事先配置将界面互动对话文本拆解后得到的第一窗口化互动对话文本单元的第一数目,然后基于配置的第一数目,对该界面互动对话文本进行拆解,以将该界面互动对话文本拆解为第一数目的第一窗口化互动对话文本单元,该第一数目不小于1。这样,实现将待存储线上会话文本大数据中的各个界面互动对话文本分别拆解为第一数目的第一窗口化互动对话文本单元的功能。
此外,待存储线上会话文本大数据中可以包括多个界面互动对话文本,而每个界面互动对话文本可以包括最少一个第一窗口化互动对话文本单元。换言之,窗口化互动对话文本单元可以理解为界面互动对话文本的局部文本集,窗口化互动对话文本单元包含的内容可以是词语、短语、句子和段落等信息的组合。线上会话的业务场景可以包括数字孪生服务、元宇宙服务、电子商务服务、在线办公服务、互联网安防服务、数据共享服务、数据匿名服务、智慧医疗服务、智慧城市服务等。界面互动对话文本可以用于记录用户和服务平台之间、用户和用户之间的交互记录。
S102:对于待存储线上会话文本大数据中的目标界面互动对话文本,获取关联界面互动对话文本与目标界面互动对话文本间的差异度量值,并结合差异度量值,将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元。
在本发明实施例中,该关联界面互动对话文本为待存储线上会话文本大数据中除目标界面互动对话文本以外的界面互动对话文本,第二数目与差异度量值具有设定关系。其中,该差异度量值可以用于反映关联界面互动对话文本与目标界面互动对话文本间的数量差异距离,该设定关系可以理解为负相关关系。
在对待存储线上会话文本大数据进行结构化描述知识挖掘时,可以对待存储线上会话文本大数据中的各个界面互动对话文本分别进行结构化描述知识挖掘,在S102中,该目标界面互动对话文本可以理解为当前正在进行结构化描述知识挖掘处理的界面互动对话文本。对于该目标界面互动对话文本,首先确定该目标界面互动对话文本对应的关联界面互动对话文本,在应用过程中,该关联界面互动对话文本为待存储线上会话文本大数据中除目标界面互动对话文本以外的界面互动对话文本,该关联界面互动对话文本的数目为最少一个。然后对于每个关联界面互动对话文本,获取该关联界面互动对话文本与目标界面互动对话文本之间的差异度量值,从而根据该差异度量值,确定用于对该关联界面互动对话文本进行拆解的数目为第二数目,进而将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元。在一些示例性场景下,该第二数目与差异度量值具有设定关系,换言之,在差异度量值逐渐增加时,第二数目逐渐减小。可以理解,该第二数目和差异度量值可以是线性设定关系,也可以是非线性设定关系。
在一些示例下,人工智能服务器可基于以下思路获取关联界面互动对话文本与目标界面互动对话文本间的差异度量值:获取关联界面互动对话文本与目标界面互动对话文本之间的界面互动对话文本的文本数目,并将文本数目作为关联界面互动对话文本与目标界面互动对话文本间的差异度量值;或者,获取关联界面互动对话文本的文本生成时刻、与目标界面互动对话文本的文本生成时刻之间的差值,并将差值作为关联界面互动对话文本与目标界面互动对话文本间的差异度量值。
在一些示例性场景下,该关联界面互动对话文本与目标界面互动对话文本之间的差异度量值,可以通过关联界面互动对话文本与目标界面互动对话文本之间的界面互动对话文本的文本数目表示。因此,在获取关联界面互动对话文本与目标界面互动对话文本间的差异度量值时,可以获取关联界面互动对话文本与目标界面互动对话文本之间的界面互动对话文本的文本数目,从而将该文本数目作为关联界面互动对话文本与目标界面互动对话文本间的差异度量值。
在一些示例性场景下,该关联界面互动对话文本与目标界面互动对话文本之间的差异度量值,还可以通过关联界面互动对话文本的文本生成时刻、与目标界面互动对话文本的文本生成时刻之间的差值表征。因此,在获取关联界面互动对话文本与目标界面互动对话文本间的差异度量值时,可以获取关联界面互动对话文本的文本生成时刻、与目标界面互动对话文本的文本生成时刻之间的差值,从而将差值作为关联界面互动对话文本与目标界面互动对话文本间的差异度量值。
在一些示例下,人工智能服务器可基于以下思路确定用于关联界面互动对话文本的拆解的第二数目:获取差异度量值和拆解数目间的关联特征,该拆解数目,用于关联界面互动对话文本的拆解;结合差异度量值以及关联特征,确定差异度量值对应的目标拆解数目,并将目标拆解数目作为第二数目。
在一些示例性场景下,可以事先配置差异度量值和拆解数目间的关联特征(映射特征),该关联特征可以通过映射算法表征,比如拆解数目=q*差异度量值+初始数目(q小于0),然后结合关联界面互动对话文本与目标界面互动对话文本间的差异度量值、以及该关联特征,确定该差异度量值对应的目标拆解数目,从而将该目标拆解数目作为第二数目,以进一步将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元。
在一些示例下,人工智能服务器还可基于以下思路确定用于关联界面互动对话文本的拆解的第二数目:获取关联界面互动对话文本对应的多个差异度量值约束范围,每个差异度量值约束范围匹配了相应的拆解数目,该拆解数目,用于关联界面互动对话文本的拆解;从多个差异度量值约束范围中,确定差异度量值所处的目标差异度量值约束范围,并将目标差异度量值约束范围对应的拆解数目作为第二数目。其中,差异度量值约束范围可以理解为差异度量值的取值区间或者取值范围。
在一些示例性场景下,还可以事先配置多个差异度量值约束范围,该每个差异度量值约束范围匹配了相应的拆解数目。当对关联界面互动对话文本进行拆解时,可以从多个差异度量值约束范围中,确定差异度量值所处的目标差异度量值约束范围,并将目标差异度量值约束范围对应的拆解数目作为第二数目,以进一步将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元。
S103:对于目标界面互动对话文本中的各第一窗口化互动对话文本单元,以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识。
结合上述S101,得到了目标界面互动对话文本包括的第一数目的第一窗口化互动对话文本单元,结合上述S102,得到了关联界面互动对话文本包括的第二数目的第二窗口化互动对话文本单元,在S103中,可针对目标界面互动对话文本中的每个第一窗口化互动对话文本单元分别实施如下操作,以得到各第一窗口化互动对话文本单元的文本结构化描述知识:以目标界面互动对话文本包括的各第一窗口化互动对话文本单元、以及关联界面互动对话文本包括的各第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识。
在本发明实施例中,结构化描述知识挖掘用于对相应的窗口化互动对话文本单元进行结构化文本特征挖掘,该结构化文本特征可以在传统的文本特征基础上引入词语含义的关联描述、语法/句法之间的逻辑联系(比如推导关系和溯源关系等)、深层/潜在语义的联系、字词句段的频繁度联系等。基于此,所得到的文本结构化描述知识可以通过特征向量或者线性数组的形式表征。文本结构化描述知识能够作为结构化存储的分析依据。
在一些示例下,结构化存储方法,是把树状文件系统的原理应用到单个的文件中,使得单个文件也能象文件系统一样包含子目录,子目录还可以包含更深层次的子目录,各个目录可以含多个文件,把原来需要多个文件存储的内容按树状结构和层次保存到一个文件中去的一种方法。结构化存储可以实现“点线面”式的信息存储,不仅可以方便后期的调用和查询,还可以提高信息存储的容灾性能,在结构化存储场景下,即便部分信息存在丢失,也可以通过上下游的存储联系进行适应性恢复。
在一些示例下,S103中的“以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识”可通过S1031-S1034实现。
S1031,获取目标界面互动对话文本包括的第一窗口化互动对话文本单元的文本单元结构化语义,并获取关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义。
S1032,分别确定各文本单元结构化语义与第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数。
S1033,结合各文本单元结构化语义对应的结构化语义共性系数,对多个文本单元结构化语义进行第一加权操作,得到第一窗口化互动对话文本单元的单元结构化加权语义。
S1034,将第一窗口化互动对话文本单元的文本单元结构化语义和单元结构化加权语义进行第二加权操作,得到第一窗口化互动对话文本单元的文本结构化描述知识。
对于S1031而言,获取的是目标界面互动对话文本包括的第一窗口化互动对话文本单元的文本单元结构化语义(文本单元结构化特征)、以及各关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义。
对于S1032而言,将第一窗口化互动对话文本单元的文本单元结构化语义,分别和获取的各文本单元结构化语义(包括第一窗口化互动对话文本单元自身的文本单元结构化语义)进行特征相似度运算,得到各文本单元结构化语义与第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数,该结构化语义共性系数可以通过余弦相似度、欧式距离等方式表征。
对于S1033而言,根据各文本单元结构化语义对应的结构化语义共性系数,对多个文本单元结构化语义进行第一加权操作,得到第一窗口化互动对话文本单元的单元结构化加权语义,举例而言,可以将各文本单元结构化语义对应的结构化语义共性系数作为相应文本单元结构化语义的加权因子,对多个文本单元结构化语义进行加权融合,得到第一窗口化互动对话文本单元的单元结构化加权语义。单元结构化加权语义可以理解为结构化语义的聚合结果或者加权结果。
对于S1034而言,将第一窗口化互动对话文本单元的文本单元结构化语义和S1033得到的单元结构化加权语义在进行第二加权操作,得到第一窗口化互动对话文本单元的文本结构化描述知识,比如,可以将第一窗口化互动对话文本单元的文本单元结构化语义和单元结构化加权语义进行组合、求和、求积等处理,得到第一窗口化互动对话文本单元的文本结构化描述知识。
在一些示例下,S1033可通过S10331-S10332实现。
S10331,对各文本单元结构化语义对应的结构化语义共性系数进行数值映射处理,并将数值映射结果作为相应文本单元结构化语义的语义强化因子。
S10332,结合各文本单元结构化语义的语义强化因子,对多个文本单元结构化语义进行语义强化求和,得到第一窗口化互动对话文本单元的单元结构化加权语义。
在一些示例性场景下,可以对多个文本单元结构化语义对应的结构化语义共性系数(可以理解为语义向量相似度)进行数值映射处理(比如归一化处理),从而将数值映射结果作为相应文本单元结构化语义的语义强化因子(比如向量权重),从而结合各文本单元结构化语义的语义强化因子,对多个文本单元结构化语义进行语义强化求和,得到第一窗口化互动对话文本单元的单元结构化加权语义。
在一些示例下,文本单元结构化语义包括连接语义特征、请求语义特征以及应答语义特征。S1032可基于以下思路实现:分别确定各窗口化互动对话文本单元的请求语义特征、与第一窗口化互动对话文本单元的连接语义特征之间的特征共性评分,并将特征共性评分作为结构化语义共性系数。适应性的,S1033可基于以下思路实现:结合各文本单元结构化语义对应的结构化语义共性系数,对多个应答语义特征进行第一加权操作,得到第一窗口化互动对话文本单元的单元结构化加权语义。
在一些示例性场景下,每个窗口化互动对话文本单元的文本单元结构化语义包括连接语义特征(查询特征)、请求语义特征(键特征)以及应答语义特征(值特征),可以通过将窗口化互动对话文本单元的语义知识分别映射到另外三个特征坐标系中,得到该连接语义特征、请求语义特征以及应答语义特征。在确定各窗口化互动对话文本单元的文本单元结构化语义和第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数时,可以确定各窗口化互动对话文本单元的请求语义特征与第一窗口化互动对话文本单元的连接语义特征之间的特征共性评分,从而将该特征共性评分作为结构化语义共性系数。相应的,当对多个窗口化互动对话文本单元的文本单元结构化语义进行第一加权操作时,可以对多个窗口化互动对话文本单元的应答语义特征进行第一加权操作,得到第一窗口化互动对话文本单元的单元结构化加权语义。
在一些示例下,文本单元结构化语义包括连接语义特征、请求语义特征以及应答语义特征;结合此,S1031可通过S201-S205实现:S201,将关联界面互动对话文本包括的第二窗口化互动对话文本单元进行文本编码处理,得到第二窗口化互动对话文本单元的窗口化文本单元编码数据。
S202,对窗口化文本单元编码数据进行特征映射处理,得到第二窗口化互动对话文本单元的第一初始连接语义特征、第一初始请求语义特征以及第一初始应答语义特征。
S203,对第一初始连接语义特征进行第一特征下采样,得到连接语义特征。
S204,对第一初始请求语义特征进行第二特征下采样,并结合差异度量值,对第二特征下采样的生成结果进行处理,得到请求语义特征。
S205,对第一初始应答语义特征进行第三特征下采样,并结合差异度量值,对第三特征下采样的生成结果进行处理,得到应答语义特征。
在一些示例性场景下,每个窗口化互动对话文本单元的文本单元结构化语义包括连接语义特征、请求语义特征和应答语义特征。以获取关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义为例,对连接语义特征、请求语义特征和应答语义特征的确定进行介绍。
对于S201而言对第二窗口化互动对话文本单元进行文本编码处理,得到第二窗口化互动对话文本单元的窗口化文本单元编码数据,如对第二窗口化互动对话文本单元进行语义挖掘,得到窗口化互动对话文本单元标记,然后对窗口化互动对话文本单元标记进行嵌入处理,得到窗口化文本单元编码数据。
对于S202而言,对窗口化文本单元编码数据进行特征映射处理,得到第二窗口化互动对话文本单元的第一初始连接语义特征、第一初始请求语义特征以及第一初始应答语义特征,如将窗口化互动对话文本单元的语义知识通过特征映射分别映射到另外三个特征坐标系中,得到第一初始连接语义特征、第一初始请求语义特征以及第一初始应答语义特征。
对于S203而言,对第一初始连接语义特征进行第一特征下采样,得到该连接语义特征,如通过第一池化子网,采用设定的第一下采样参量对第一初始连接语义特征进行第一特征下采样,得到连接语义特征。
对于S204而言,对第一初始请求语义特征进行第二特征下采样,并结合差异度量值,对第二特征下采样的生成结果进行处理,得到请求语义特征,如通过第二池化子网,结合设定的第二下采样参量对第一初始请求语义特征进行第二特征下采样,并将结合该关联界面互动对话文本和目标界面互动对话文本的差异度量值,对第二特征下采样的生成结果进行处理,得到请求语义特征。
对于S205而言,对第一初始应答语义特征进行第三特征下采样,并结合差异度量值,对第三特征下采样的生成结果进行处理,得到应答语义特征,如通过第三池化子网,结合设定的第三下采样参量对第一初始应答语义特征进行第三特征下采样,并将结合该关联界面互动对话文本和目标界面互动对话文本的差异度量值,对第三特征下采样的生成结果进行处理,得到应答语义特征。
在一些示例下,S204可通过S2041-S2042实现。
S2041,当差异度量值达到差异度量限值时,对第二特征下采样的生成结果进行第一结构化描述知识挖掘处理,得到请求语义特征。
S2042,当差异度量值没有达到差异度量限值时,对第二特征下采样的生成结果进行第二结构化描述知识挖掘处理,得到请求语义特征;其中,第一结构化描述知识挖掘处理生成的请求语义特征的细节承载量,低于第二结构化描述知识挖掘处理生成的请求语义特征的细节承载量。
在一些示例性场景下,由于差异度量值目标界面互动对话文本达到差异度量限值的关联界面互动对话文本,和该目标界面互动对话文本的相关性低于相关性阈值,因此可以对该关联界面互动对话文本进行细节承载量较低的第一结构化描述知识挖掘处理;而由于差异度量值目标界面互动对话文本没有达到差异度量限值的关联界面互动对话文本,和该目标界面互动对话文本的相关性高于相关性阈值,因此可以对该关联界面互动对话文本进行细节承载量较高的第二结构化描述知识挖掘处理。这样,不仅可以确保结构化描述知识挖掘准确性,还可以减少处理耗时,提高结构化描述知识挖掘的时效性。
对于S2041而言,当差异度量值达到差异度量限值时,对第二特征下采样的生成结果进行第一结构化描述知识挖掘处理,如对第二特征下采样的生成结果进行全局结构化描述知识挖掘处理,得到请求语义特征,示例性可以通过全局池化操作来进行全局结构化描述知识挖掘处理。对于S2042而言,当差异度量值没有达到差异度量限值时,对第二特征下采样的生成结果进行第二结构化描述知识挖掘处理,如对第二特征下采样的生成结果进行特征压缩,得到特征压缩结果,然后对特征压缩结果进行结构化描述知识挖掘处理,得到请求语义特征。
在一些示例下,S205可通过S2051-S2052实现。
S2051,当差异度量值达到差异度量限值时,对第三特征下采样的生成结果进行第一结构化描述知识挖掘处理,得到应答语义特征。
S2052,当差异度量值没有达到差异度量限值时,对第三特征下采样的生成结果进行第二结构化描述知识挖掘处理,得到应答语义特征;其中,第一结构化描述知识挖掘处理生成的请求语义特征的细节承载量,低于第二结构化描述知识挖掘处理生成的请求语义特征的细节承载量。
在一些示例下,以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,人工智能服务器可基于以下思路对第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识:以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行至少两轮的结构化描述知识挖掘,得到每轮结构化描述知识挖掘所得到的初始文本结构化描述知识;将每轮结构化描述知识挖掘所得到的初始文本结构化描述知识进行组合,得到第一窗口化互动对话文本单元的文本结构化描述知识。
在一些示例性场景下,为保证知识挖掘的精度和可信度,可以循环结构化描述知识挖掘的过程。举例而言,可以事先配置结构化描述知识挖掘的设定循环限值,然后以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行设定循环限值的结构化描述知识挖掘,得到每轮结构化描述知识挖掘所得到的初始文本结构化描述知识;将每轮结构化描述知识挖掘所得到的初始文本结构化描述知识进行组合,得到第一窗口化互动对话文本单元的文本结构化描述知识。
S104:对各界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到待存储线上会话文本大数据的结构化存储决策知识。
在S103中得到待存储线上会话文本大数据中各个界面互动对话文本包括的各个第一窗口化互动对话文本单元的文本结构化描述知识之后,对于S104而言,对待存储线上会话文本大数据中各个界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到待存储线上会话文本大数据的结构化存储决策知识。
举例而言,可以将各界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行组合,得到结构化存储决策知识;也可以将各界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行求和,得到结构化存储决策知识;还可以将各界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行求积,得到结构化存储决策知识等。
在本发明实施例中,结构化描述知识整理可以理解为结构化描述知识的聚合处理,这样一来可以得到针对待存储线上会话文本大数据的完整、丰富且准确的结构化存储决策知识。结构化存储决策知识可以指导待存储线上会话文本大数据的结构化存储,比如如何进行存储要素提取和关联,又比如提供结构化存储的顺序、模式等一系列参考,这样可以高效准确地实现待存储线上会话文本大数据的结构化存储,减少不必要的资源开销。
在一些示例下,S104可通过S1041-S1043实现。
S1041,对于各界面互动对话文本,将界面互动对话文本中至少两个连续的第一窗口化互动对话文本单元的文本结构化描述知识进行组合,得到界面互动对话文本对应的多个初始文本结构化描述知识。
S1042,对于每个初始文本结构化描述知识,以多个初始文本结构化描述知识以及关联界面互动对话文本包括的第二窗口化互动对话文本单元的语义知识为基准,对初始文本结构化描述知识进行结构化描述知识挖掘,得到界面互动对话文本对应的文本结构化描述组合知识。
S1043,对各界面互动对话文本对应的文本结构化描述组合知识进行结构化描述知识整理,得到线上会话文本大数据的结构化存储决策知识。
对于S1041而言,针对每个界面互动对话文本,在对于各第一窗口化互动对话文本单元进行结构化描述知识挖掘后,将该界面互动对话文本中的至少两个连续的第一窗口化互动对话文本单元的文本结构化描述知识进行组合,得到界面互动对话文本对应的多个初始文本结构化描述知识,比如,可以将设定数目(不小于2)的第一窗口化互动对话文本单元的文本结构化描述知识进行组合。
对于S1042而言,对于每个初始文本结构化描述知识,以多个初始文本结构化描述知识以及关联界面互动对话文本包括的第二窗口化互动对话文本单元的语义知识为基准,对初始文本结构化描述知识再进行结构化描述知识挖掘,得到该界面互动对话文本对应的文本结构化描述组合知识。
对于S1043而言,对各界面互动对话文本对应的文本结构化描述组合知识进行结构化描述知识整理,如特征组合、特征求和、特征求积等,得到线上会话文本大数据的结构化存储决策知识。
在本发明实施例中,该基于知识可视化的线上会话大数据存储方法通过人工智能神经网络实现,该人工智能神经网络包括结构化描述知识挖掘网络,该结构化描述知识挖掘网络包括对应3个分支的子网。在应用过程中,该子网的分支数不作限,该结构化描述知识挖掘网络用于对线上会话文本大数据中的界面互动对话文本所包括的窗口化互动对话文本单元进行结构化描述知识挖掘,得到各窗口化互动对话文本单元的文本结构化描述知识;该人工智能神经网络还包括文本编码处理层、文本结构化描述知识整理层。
在通过该人工智能神经网络对线上会话文本大数据进行处理时,首先,将待存储线上会话文本大数据中的各个界面互动对话文本,分别拆解为第一数目的第一窗口化互动对话文本单元,并对于待存储线上会话文本大数据中的目标界面互动对话文本,结合关联界面互动对话文本与目标界面互动对话文本间的差异度量值,将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元。其次,将待存储线上会话文本大数据包括的第一窗口化互动对话文本单元以及第二窗口化互动对话文本单元,输入至该人工智能神经网络的文本编码处理层。然后,通过文本编码处理层,将第一窗口化互动对话文本单元进行文本编码处理,得到第一窗口化互动对话文本单元的窗口化文本单元编码数据;将关联界面互动对话文本包括的第二窗口化互动对话文本单元进行文本编码处理,得到第二窗口化互动对话文本单元的窗口化文本单元编码数据。最后,对于目标界面互动对话文本中的各第一窗口化互动对话文本单元,通过结构化描述知识挖掘网络,以多个窗口化文本单元编码数据为基准,对第一窗口化互动对话文本单元的窗口化文本单元编码数据进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识,以通过结构化描述知识挖掘网络输出待存储线上会话文本大数据包括的各个第一窗口化互动对话文本单元的文本结构化描述知识。
在实际实施时,每个结构化描述知识挖掘网络设置有相应的结构化描述知识挖掘次数,该结构化描述知识挖掘次数为至少一次,结合此,通过结构化描述知识挖掘网络,可以以多个窗口化文本单元编码数据为基准,对第一窗口化互动对话文本单元的窗口化文本单元编码数据进行该结构化描述知识挖掘次数的结构化描述知识挖掘,得到每轮结构化描述知识挖掘所得到的初始文本结构化描述知识,然后将每轮结构化描述知识挖掘所得到的初始文本结构化描述知识进行组合,得到第一窗口化互动对话文本单元的文本结构化描述知识。
在实际实施时,不同分支的结构化描述知识挖掘网络,第一窗口化互动对话文本单元的规模可以一致也可以不一致,比如针对第一分支的结构化描述知识挖掘网络,第一窗口化互动对话文本单元的尺寸与第二分支的结构化描述知识挖掘网络所对应的第一窗口化互动对话文本单元的尺寸不同。
进一步地,可以通过文本结构化描述知识整理层,对各个第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到待存储线上会话文本大数据的结构化存储决策知识。
在一些示例性场景下,当上述人工智能神经网络用于文本分析场景(如话题判别、观点评论分析)时,该人工智能神经网络中还可以包括文本语义预测层,即用于最后的文本分析场景的预测,比如当文本分析场景为话题判别场景时,结合提取的待存储线上会话文本大数据的结构化存储决策知识,通过文本语义预测层预测得到该待存储线上会话文本大数据的话题判别结果;比如文本分析场景为观点评论分析任务时,结合提取的待存储线上会话文本大数据的结构化存储决策知识,通过文本语义预测层预测得到该待存储线上会话文本大数据的观点评论分析结果等。
在一些示例性实施例中,该结构化描述知识挖掘网络包括如下网络层。
(1)特征映射层:即另外三个特征坐标系所对应的局部特征映射节点,包括第一局部特征映射节点(Normalization1)、第二局部特征映射节点(Normalization2)、以及第三局部特征映射节点(Normalization3)。
(2)特征下采样层:包括3个池化子网,分别为第一池化子网(Layer1)、第二池化子网(Layer2)和第三池化子网(Layer3)。
(3)第一结构化描述知识挖掘层:即用于挖掘请求语义特征的特征关注节点(AttentionK,注意力节点)。
(4)第二结构化描述知识挖掘层:用于提取得到应答语义特征的特征关注节点(AttentionV,注意力节点)。
(5)第四池化子网(Layer)。
(6)特征共性评分处理层,用于进行特征相似度运算。
(7)数值映射处理层,可以配置Softmax算法。
(8)第一结构化描述知识整理层:可以进行结构化描述知识整理。
(9)第二结构化描述知识整理层:对第一窗口化互动对话文本单元的文本单元结构化语义和单元结构化加权语义进行求和以及正则化处理,得到文本结构化描述知识。
基于此,结合该第一人工智能神经网络,对第一窗口化互动对话文本单元进行结构化描述知识挖掘的过程可以包括如下内容。
步骤21,将第一窗口化互动对话文本单元进行文本编码处理,得到第一窗口化互动对话文本单元的窗口化文本单元编码数据;将关联界面互动对话文本包括的第二窗口化互动对话文本单元进行文本编码处理,得到第二窗口化互动对话文本单元的窗口化文本单元编码数据。
步骤22,通过第一局部特征映射节点(Normalization1),对窗口化文本单元编码数据进行特征映射处理,得到第一初始连接语义特征;通过第二局部特征映射节点(Normalization2),对窗口化文本单元编码数据进行特征映射处理,得到第一初始请求语义特征;通过第三局部特征映射节点(Normalization3),对窗口化文本单元编码数据进行特征映射处理,得到第一初始应答语义特征。
步骤23,通过第一池化子网(Layer1),对第一初始连接语义特征进行第一特征下采样,得到连接语义特征;通过第二池化子网(Layer2),对第一初始请求语义特征进行第二特征下采样;通过第三池化子网(Layer3),对第一初始应答语义特征进行第三特征下采样。
步骤24,通过第一结构化描述知识挖掘层,结合差异度量值,对第二特征下采样的生成结果进行处理,得到请求语义特征;通过第二结构化描述知识挖掘层,结合差异度量值,对第三特征下采样的生成结果进行处理,得到应答语义特征。
对于步骤24而言,当差异度量值达到差异度量限值时,对第二特征下采样的生成结果进行第一结构化描述知识挖掘处理,得到请求语义特征;当差异度量值没有达到差异度量限值时,对第二特征下采样的生成结果进行第二结构化描述知识挖掘处理,得到请求语义特征;其中,第一结构化描述知识挖掘处理生成的请求语义特征的细节承载量,低于第二结构化描述知识挖掘处理生成的请求语义特征的细节承载量。其中,细节承载量可以理解为特征密度,用于反映特征所记载的内容的充实度。
步骤25,通过第四池化子网,对第一窗口化互动对话文本单元的文本单元结构化语义进行特征下采样,得到第一窗口化互动对话文本单元的池化特征。
步骤26,通过特征共性评分处理层,对分别确定各窗口化互动对话文本单元的请求语义特征、与第一窗口化互动对话文本单元的连接语义特征之间的特征共性评分。
步骤27,通过数值映射处理层,对各窗口化互动对话文本单元对应的结构化语义共性系数进行数值映射处理,并将数值映射结果作为相应窗口化互动对话文本单元对应的语义强化因子。
步骤28,通过第一结构化描述知识整理层,结合各窗口化互动对话文本单元对应的语义强化因子,对多个应答语义特征进行语义强化求和,得到第一窗口化互动对话文本单元的单元结构化加权语义。
步骤29,通过第二结构化描述知识整理层,将第一窗口化互动对话文本单元的文本单元结构化语义和单元结构化加权语义进行第二加权操作,得到第一窗口化互动对话文本单元的文本结构化描述知识。
可见,将待存储线上会话文本大数据中的各个界面互动对话文本分别拆解为第一数目的第一窗口化互动对话文本单元,对于待存储线上会话文本大数据中的目标界面互动对话文本,获取关联界面互动对话文本与目标界面互动对话文本间的差异度量值,并结合差异度量值将关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元。一方面,可针对目标界面互动对话文本中的各第一窗口化互动对话文本单元,以目标界面互动对话文本以及关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到第一窗口化互动对话文本单元的文本结构化描述知识,并对各界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到待存储线上会话文本大数据的结构化存储决策知识,确保了线上会话文本大数据的结构化描述知识挖掘准确性。另一方面,该关联界面互动对话文本为待存储线上会话文本大数据中除目标界面互动对话文本以外的界面互动对话文本,该第二数目与关联界面互动对话文本与目标界面互动对话文本间的差异度量值具有设定关系,换言之,伴随关联界面互动对话文本与目标界面互动对话文本间的差异度量值的增大,该关联界面互动对话文本包括的窗口化互动对话文本单元的数目会减小;如此,在以关联界面互动对话文本包括的窗口化互动对话文本单元为基准对目标界面互动对话文本的窗口化互动对话文本单元进行结构化描述知识挖掘时,降低了结构化描述知识挖掘过程的处理开销,提升了线上会话文本大数据的结构化描述知识挖掘的时效性。
在传统方案中,结构化存储决策知识的挖掘通常采用滑动平均处理的方式实现,但是滑动平均处理的运算开销过高,导致线上会话文本大数据的结构化描述知识挖掘的时效性很低。而在本发明实施例中,可采用时序关注网络实现,换言之,将线上会话文本大数据包括的多个界面互动对话文本的特征作为标记,输入到时序关注网络中来获得结构化存储决策知识。举例而言,将当前界面互动对话文本的关联界面互动对话文本(为线上会话文本大数据中除当前界面互动对话文本以外的最少一个界面互动对话文本)均拆解为相同数目的窗口化互动对话文本单元,然后以当前界面互动对话文本和关联界面互动对话文本包括的每个窗口化互动对话文本单元为基准,以实现对当前界面互动对话文本包括的每个窗口化互动对话文本单元进行特征关注强化,从而得到结构化存储决策知识。但是,以当前界面互动对话文本和关联界面互动对话文本包括的每个窗口化互动对话文本单元为基准,以实现对当前界面互动对话文本包括的每个窗口化互动对话文本单元进行特征关注强化时,由于关联界面互动对话文本包括的窗口化互动对话文本单元很多,特征关注强化过程的运算开销也不低,线上会话文本大数据的结构化描述知识挖掘时效性的优化并不显著。
结合此,本发明实施例提供一种优化的时序关注网络,通过动态可调的时序注意力子网,对于不同差异度量值的界面互动对话文本(或理解为界面互动对话信息)进行处理,可以显著释放运算开销,还可以规避噪声界面互动对话文本的影响,提升了结构化描述知识挖掘的时效性和准确性。举例而言,将当前界面互动对话文本拆解为第一数目的文本单元(每个文本单元为第一规模),将关联界面互动对话文本(为线上会话文本大数据中除当前界面互动对话文本以外的最少一个界面互动对话文本)拆解为第二数目的文本单元(每个文本单元为第二规模),就时间特征而言,与当前界面互动对话文本的差异度量值越大的关联界面互动对话文本,所包含的文本单元的数目越少,换言之,伴随关联界面互动对话文本和当前界面互动对话文本间的差异度量值的增大,关联界面互动对话文本所包含的文本单元的数目逐渐减小。
在此基础上,在一些可独立的设计思路下,在所述对各所述界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识之后,所述方法还包括S105:基于所述结构化存储决策知识,对所述待存储线上会话文本大数据进行结构化处理,得到结构化线上会话文本;将所述结构化线上会话文本进行存储。
对于S105而言,可以结合结构化存储决策知识实现待存储线上会话文本大数据的针对性结构化处理,从而确保用于存储的结构化线上会话文本的质量,这样在将结构化线上会话文本存储到结构化数据库中时,能够提高存储效率,避免存储过程中的数据丢失等异常情况的发生。
在此基础上,在一些可独立的设计思路下,在S105所述的基于所述结构化存储决策知识,对所述待存储线上会话文本大数据进行结构化处理,得到结构化线上会话文本;将所述结构化线上会话文本进行存储之后,所述方法包括S106:在接收到针对所述结构化线上会话文本的访问请求时,根据所述访问请求确定数据访问端的访问用途标签;在所述访问用途标签为公开用途标签时,对所述结构化线上会话文本进行数据脱敏处理,得到结构化匿名文本;将所述数据访问端关于所述结构化匿名文本访问权限调整为开放。
对于S106而言,通过判定数据访问端的访问用途标签,能够在访问用途标签为公开用途标签时实现结构化线上会话文本的数据脱敏处理,从而保障数据访问端在访问结构化匿名文本时,结构化匿名文本中的相关用户个体画像不会泄露,保障了用户个体画像的安全性。
在此基础上,在一些可独立的设计思路下,S106中的所述对所述结构化线上会话文本进行数据脱敏处理,得到结构化匿名文本,包括:获取样本结构化匿名文本;获取所述结构化线上会话文本中的个体画像检测信息和所述样本结构化匿名文本中的个体画像检测信息;根据所述结构化线上会话文本中的个体画像检测信息和所述样本结构化匿名文本中的个体画像检测信息,确定所述结构化线上会话文本和所述样本结构化匿名文本的个体画像相关性系数;确定所述结构化线上会话文本的个体画像热力分布和所述样本结构化匿名文本的个体画像热力分布;根据所述结构化线上会话文本的个体画像热力分布和所述样本结构化匿名文本的个体画像热力分布,确定所述结构化线上会话文本和所述样本结构化匿名文本的第一个体画像热力相关性系数;根据所述结构化线上会话文本和所述样本结构化匿名文本的个体画像相关性系数和所述第一个体画像热力相关性系数,确定所述结构化线上会话文本和所述样本结构化匿名文本之间的文本结构相关性系数;根据所述结构化线上会话文本和所述样本结构化匿名文本之间的文本结构相关性系数,从所述样本结构化匿名文本中确定辅助匿名文本,根据所述辅助匿名文本对所述结构化线上会话文本进行特征泛化处理。
可见,在为结构化线上会话文本确定辅助匿名文本时,一方面通过结构化线上会话文本与样本结构化匿名文本的个体画像热力分布确保了辅助匿名文本与结构化线上会话文本之间的整体相关性系数;另一方面通过结构化线上会话文本与样本结构化匿名文本之间的个体画像相关性系数确保了辅助匿名文本中的个体画像与结构化线上会话文本中的个体画像相关性系数,即确保了辅助匿名文本与结构化线上会话文本中的信息相关性,这样在根据辅助匿名文本对结构化线上会话文本进行特征泛化处理时,提高结构化线上会话文本的特征泛化处理质量和效率,从而实现结构化线上会话文本的数据脱敏处理。
在此基础上,在一些可独立的设计思路下,在S105所述的基于所述结构化存储决策知识,对所述待存储线上会话文本大数据进行结构化处理,得到结构化线上会话文本;将所述结构化线上会话文本进行存储之后,所述方法包括S107:在接收到针对所述结构化线上会话文本的调用请求时,根据所述调用请求确定数据调用端的安全风险预测结果;在所述安全风险预测结果表征所述数据调用端存在安全风险时,拒绝所述调用请求。
对于S107而言,在安全风险预测结果表征数据调用端存在安全风险时,表明数据调用端可能会对结构化数据库产生威胁,如果响应该调用请求,可能会给结构化数据库带来数据信息安全隐患,因此通过拒接调用请求,可以进一步保障结构化数据库的安全性和稳定性。基于此,对于数据调用端的安全风险预测结果确定的精度至关重要,基于此,S107中的所述根据所述调用请求确定数据调用端的安全风险预测结果,包括:获取所述数据调用端中的图形化操作行为数据的图形化操作行为向量;确定所述图形化操作行为数据对应的异常风险判别参考;通过图像描述挖掘算法提取所述异常风险判别参考的风险判别描述子;以所述风险判别描述子和所述图形化操作行为向量作为安全风险预测算法的输入,确定所述风险判别描述子和所述图形化操作行为向量分别对应的置信系数,并根据置信系数将所述风险判别描述子和所述图形化操作行为向量进行聚合,得到与所述图形化操作行为数据对应的威胁表征向量;基于所述威胁表征向量确定与所述数据调用端匹配的安全风险预测结果。
对于S107而言,可以从图像层面实现数据调用端的操作行为风险分析,从而基于威胁表征向量准确确定与数据调用端匹配的安全风险预测结果,这样可以利用安全风险预测结果所表征的风险评分准确可靠地判定数据调用端是否安全。
本发明实施例还提供了一种用于实现基于知识可视化的线上会话大数据存储方法的软件产品,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行上述的方法。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在运行时执行上述的方法。
综上,通过利用人工智能神经网络对诸如元宇宙服务、电子商务服务、互联网安防服务、智慧城市服务等业务会话的窗口化互动对话文本单元进行结构化描述知识挖掘和处理,能够确定出待存储线上会话文本大数据的结构化存储决策知识,确保了结构化描述知识挖掘的准确性,还能够降低结构化描述知识挖掘过程的处理开销,提升结构化描述知识挖掘的时效性
以上所述,仅为本发明的具体实施方式。熟悉本技术领域的技术人员根据本发明提供的具体实施方式,可想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于知识可视化的线上会话大数据存储方法,其特征在于,应用于人工智能服务器,所述方法包括:
将待存储线上会话文本大数据中的各个界面互动对话文本,分别拆解为第一数目的第一窗口化互动对话文本单元;
对于所述待存储线上会话文本大数据中的目标界面互动对话文本,获取关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值,并结合所述差异度量值,将所述关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元;其中,所述关联界面互动对话文本,为所述待存储线上会话文本大数据中除所述目标界面互动对话文本以外的界面互动对话文本,所述第二数目与所述差异度量值具有设定关系;
对于所述目标界面互动对话文本中的各所述第一窗口化互动对话文本单元,以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到所述第一窗口化互动对话文本单元的文本结构化描述知识;
对各所述界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识。
2.根据权利要求1所述的方法,其特征在于,所述获取关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值,包括:
获取所述关联界面互动对话文本与所述目标界面互动对话文本之间的界面互动对话文本的文本数目,并将所述文本数目作为所述关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值。
3.根据权利要求1所述的方法,其特征在于,所述获取关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值,包括:
获取所述关联界面互动对话文本的文本生成时刻、与所述目标界面互动对话文本的文本生成时刻间的差值,并将所述差值作为所述关联界面互动对话文本与所述目标界面互动对话文本间的差异度量值。
4.根据权利要求1所述的方法,其特征在于,所述结合所述差异度量值,将所述关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元之前,所述方法还包括:
获取差异度量值和拆解数目间的关联特征;其中,所述拆解数目用于所述关联界面互动对话文本的拆解;
结合所述差异度量值以及所述关联特征,确定所述差异度量值对应的目标拆解数目,并将所述目标拆解数目作为所述第二数目。
5.根据权利要求1所述的方法,其特征在于,所述结合所述差异度量值,将所述关联界面互动对话文本拆解为第二数目的第二窗口化互动对话文本单元之前,所述方法还包括:
获取所述关联界面互动对话文本对应的多个差异度量值约束范围,每个所述差异度量值约束范围匹配了相应的拆解数目,所述拆解数目,用于所述关联界面互动对话文本的拆解;
从所述多个差异度量值约束范围中,确定所述差异度量值所处的目标差异度量值约束范围,并将所述目标差异度量值约束范围对应的拆解数目作为所述第二数目。
6.根据权利要求1所述的方法,其特征在于,所述以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到所述第一窗口化互动对话文本单元的文本结构化描述知识,包括:
获取所述目标界面互动对话文本包括的第一窗口化互动对话文本单元的文本单元结构化语义,并获取所述关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义;
分别确定各所述文本单元结构化语义与所述第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数;
结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述文本单元结构化语义进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义;
将所述第一窗口化互动对话文本单元的文本单元结构化语义和所述单元结构化加权语义进行第二加权操作,得到所述第一窗口化互动对话文本单元的文本结构化描述知识;
其中,所述结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述文本单元结构化语义进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义,包括:
对各所述文本单元结构化语义对应的结构化语义共性系数进行数值映射处理,并将数值映射结果作为相应文本单元结构化语义的语义强化因子;
结合各所述文本单元结构化语义的语义强化因子,对多个所述文本单元结构化语义进行语义强化求和,得到所述第一窗口化互动对话文本单元的单元结构化加权语义;
其中,所述文本单元结构化语义包括连接语义特征、请求语义特征以及应答语义特征;所述分别确定各所述文本单元结构化语义与所述第一窗口化互动对话文本单元的文本单元结构化语义之间的结构化语义共性系数,包括:分别确定各所述窗口化互动对话文本单元的请求语义特征、与所述第一窗口化互动对话文本单元的连接语义特征之间的特征共性评分,并将所述特征共性评分作为所述结构化语义共性系数;所述结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述文本单元结构化语义进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义,包括:结合各所述文本单元结构化语义对应的结构化语义共性系数,对多个所述应答语义特征进行第一加权操作,得到所述第一窗口化互动对话文本单元的单元结构化加权语义;
其中,所述文本单元结构化语义包括连接语义特征、请求语义特征以及应答语义特征;所述获取所述关联界面互动对话文本包括的第二窗口化互动对话文本单元的文本单元结构化语义,包括:将所述关联界面互动对话文本包括的第二窗口化互动对话文本单元进行文本编码处理,得到所述第二窗口化互动对话文本单元的窗口化文本单元编码数据;对所述窗口化文本单元编码数据进行特征映射处理,得到所述第二窗口化互动对话文本单元的第一初始连接语义特征、第一初始请求语义特征以及第一初始应答语义特征;对所述第一初始连接语义特征进行第一特征下采样,得到所述连接语义特征;对所述第一初始请求语义特征进行第二特征下采样,并结合所述差异度量值,对所述第二特征下采样的生成结果进行处理,得到所述请求语义特征;对所述第一初始应答语义特征进行第三特征下采样,并结合所述差异度量值,对所述第三特征下采样的生成结果进行处理,得到所述应答语义特征;
其中,所述结合所述差异度量值,对所述第二特征下采样的生成结果进行处理,得到所述请求语义特征,包括:当所述差异度量值达到差异度量限值时,对所述第二特征下采样的生成结果进行第一结构化描述知识挖掘处理,得到所述请求语义特征;当所述差异度量值没有达到所述差异度量限值时,对所述第二特征下采样的生成结果进行第二结构化描述知识挖掘处理,得到所述请求语义特征;其中,所述第一结构化描述知识挖掘处理生成的请求语义特征的细节承载量,低于所述第二结构化描述知识挖掘处理生成的请求语义特征的细节承载量。
7.根据权利要求1所述的方法,其特征在于,所述以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行结构化描述知识挖掘,得到所述第一窗口化互动对话文本单元的文本结构化描述知识,包括:
以所述目标界面互动对话文本以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元为基准,对所述第一窗口化互动对话文本单元进行至少两轮的结构化描述知识挖掘,得到每轮结构化描述知识挖掘所得到的初始文本结构化描述知识;
将每轮结构化描述知识挖掘所得到的初始文本结构化描述知识进行组合,得到所述第一窗口化互动对话文本单元的文本结构化描述知识。
8.根据权利要求1所述的方法,其特征在于,所述对各所述界面互动对话文本包括的第一窗口化互动对话文本单元的文本结构化描述知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识,包括:
对于各所述界面互动对话文本,将所述界面互动对话文本中至少两个连续的所述第一窗口化互动对话文本单元的文本结构化描述知识进行组合,得到所述界面互动对话文本对应的多个初始文本结构化描述知识;
对于每个所述初始文本结构化描述知识,以所述多个初始文本结构化描述知识以及所述关联界面互动对话文本包括的第二窗口化互动对话文本单元的语义知识为基准,对所述初始文本结构化描述知识进行结构化描述知识挖掘,得到所述界面互动对话文本对应的文本结构化描述组合知识;
对各所述界面互动对话文本对应的文本结构化描述组合知识进行结构化描述知识整理,得到所述待存储线上会话文本大数据的结构化存储决策知识。
9.一种用于实现基于知识可视化的线上会话大数据存储方法的软件产品,其特征在于,包括计算机程序/指令,其中,当所述计算机程序/指令被执行时,实现执行如权利要求1-8中一个或多个所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在运行时如权利要求1-8中一个或多个所述的方法。
CN202310501225.4A 2023-05-06 2023-05-06 基于知识可视化的线上会话大数据存储方法及软件产品 Withdrawn CN116483978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310501225.4A CN116483978A (zh) 2023-05-06 2023-05-06 基于知识可视化的线上会话大数据存储方法及软件产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310501225.4A CN116483978A (zh) 2023-05-06 2023-05-06 基于知识可视化的线上会话大数据存储方法及软件产品

Publications (1)

Publication Number Publication Date
CN116483978A true CN116483978A (zh) 2023-07-25

Family

ID=87224987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310501225.4A Withdrawn CN116483978A (zh) 2023-05-06 2023-05-06 基于知识可视化的线上会话大数据存储方法及软件产品

Country Status (1)

Country Link
CN (1) CN116483978A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663864A (zh) * 2023-07-28 2023-08-29 天之翼(苏州)科技有限公司 应用人工智能的无人机飞行调度分析方法、服务器及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663864A (zh) * 2023-07-28 2023-08-29 天之翼(苏州)科技有限公司 应用人工智能的无人机飞行调度分析方法、服务器及介质
CN116663864B (zh) * 2023-07-28 2023-10-10 天之翼(苏州)科技有限公司 应用人工智能的无人机飞行调度分析方法、服务器及介质

Similar Documents

Publication Publication Date Title
JP6986527B2 (ja) ビデオを処理する方法及び装置
Al-Makhadmeh et al. Automatic hate speech detection using killer natural language processing optimizing ensemble deep learning approach
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
CN108090351B (zh) 用于处理请求消息的方法和装置
CN112883258B (zh) 信息推荐方法、装置、电子设备及存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN116414948A (zh) 基于云数据和人工智能的异常数据挖掘方法及软件产品
CN116483978A (zh) 基于知识可视化的线上会话大数据存储方法及软件产品
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN114118100A (zh) 用于生成对话语句的方法、装置、设备、介质和程序产品
CN115809887A (zh) 一种基于发票数据确定企业主要经营范围的方法和装置
US11361031B2 (en) Dynamic linguistic assessment and measurement
US7617182B2 (en) Document clustering based on entity association rules
CN117351334A (zh) 图像审核方法和相关设备
CN115599345A (zh) 一种基于知识图谱的应用安全需求分析推荐方法
CN114417883A (zh) 一种数据处理方法、装置及设备
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
CN114722385A (zh) 一种流量信息分析方法、系统及相关组件
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质
CN114328818A (zh) 文本语料处理方法、装置、存储介质及电子设备
US11397776B2 (en) Systems and methods for automated information retrieval
CN112765340A (zh) 一种确定云服务资源的方法、装置、电子设备及存储介质
CN112632229A (zh) 文本聚类方法及装置
Zhang et al. Learning to detect few-shot-few-clue misinformation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20230725