CN111930915A - 会话信息处理方法、装置、计算机可读存储介质及设备 - Google Patents

会话信息处理方法、装置、计算机可读存储介质及设备 Download PDF

Info

Publication number
CN111930915A
CN111930915A CN202010959812.4A CN202010959812A CN111930915A CN 111930915 A CN111930915 A CN 111930915A CN 202010959812 A CN202010959812 A CN 202010959812A CN 111930915 A CN111930915 A CN 111930915A
Authority
CN
China
Prior art keywords
vector
session
session information
keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010959812.4A
Other languages
English (en)
Other versions
CN111930915B (zh
Inventor
宋皓宇
王琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010959812.4A priority Critical patent/CN111930915B/zh
Publication of CN111930915A publication Critical patent/CN111930915A/zh
Application granted granted Critical
Publication of CN111930915B publication Critical patent/CN111930915B/zh
Priority to PCT/CN2021/112732 priority patent/WO2022052744A1/zh
Priority to US17/974,798 priority patent/US20230061778A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种会话信息处理方法、会话信息处理装置、计算机可读存储介质及电子设备;涉及人工智能技术领域;包括:当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;计算关键词集合对应的向量集合;根据向量集合生成联合语义向量,并根据属性结构和会话结构生成联合结构向量;根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。可见,实施本申请的技术方案,可以提升所计算的会话信息与目标对象之间的匹配度的准确率,从而可以在匹配度满足预设条件的情况下输出会话信息,以使得目标对象所回复的会话信息与其属性结构相匹配。

Description

会话信息处理方法、装置、计算机可读存储介质及设备
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种会话信息处理方法、会话信息处理装置、计算机可读存储介质及电子设备。
背景技术
随着计算机技术的不断发展,新兴的虚拟偶像得到越来越多人的喜爱。用户可以通过终端设备观看虚拟偶像唱歌跳舞,还可以与虚拟偶像聊天,实际上,虚拟偶像作为技术产物,其展示方式及交互方式均由程序控制,用户所感知的虚拟偶像对自已聊天信息的回复,实为计算机根据聊天信息生成的回复结果。一般来说,不同的虚拟偶像具有与之相对应的属性设定,用户可以根据偏好选择虚拟偶像进行观赏、聊天,为了打造更为真实的虚拟偶像,如何使虚拟对象所回复的信息与其属性设定相匹配成为了当前亟需解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种会话信息处理方法、会话信息处理装置、计算机可读存储介质及电子设备,可以提升所计算的会话信息与目标对象之间的匹配度的准确率,从而可以在匹配度满足预设条件的情况下输出会话信息,以使得目标对象所回复的会话信息与其属性结构相匹配。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提供一种会话信息处理方法,包括:
当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息;
计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词;
根据向量集合生成联合语义向量,并根据属性结构和会话结构生成联合结构向量;
根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。
在本申请的一种示例性实施例中,获取目标对象对应的属性结构和会话结构之前,上述方法还包括:
当检测到会话窗口中展示新增聊天消息时,确定与新增聊天消息对应的会话信息;
其中,会话窗口中包括目标对象和至少一个会话对象,新增聊天消息与会话对象相对应。
在本申请的一种示例性实施例中,确定与新增聊天消息对应的会话信息,包括:
根据新增聊天消息从预设信息库中选择会话信息;
或者,根据新增聊天消息生成会话信息。
在本申请的一种示例性实施例中,获取目标对象对应的属性结构和会话结构,包括:
读取目标对象对应的属性结构;
对会话信息进行结构化处理,得到会话结构。
在本申请的一种示例性实施例中,对会话信息进行结构化处理,得到会话结构,包括:
根据词向量模型确定会话信息对应的词向量;
根据词向量对会话信息进行文本结构分析,得到会话信息中各语言单位之间的语义关系;
根据语义关系将会话信息表示为会话结构。
在本申请的一种示例性实施例中,对会话信息进行结构化处理,得到会话结构,包括:
将会话信息与预设词汇集合进行比对,以确定出会话信息中的关键词;
根据预设词汇关系构建包含会话信息中的关键词的会话结构。
在本申请的一种示例性实施例中,计算关键词集合对应的向量集合,包括:
根据预设向量关系确定关键词集合中各关键词的关键词向量;
根据各关键词的位置信息确定各关键词对应的位置向量;
根据各关键词分别对应的类别确定各关键词的类别向量;
根据属性结构和会话结构确定各关键词的分隔向量;其中,属性结构中的关键词的分隔向量相同,会话结构中的关键词的分隔向量相同;
将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到各关键词分别对应的待处理向量;
将各关键词分别对应的待处理向量的集合确定为向量集合。
在本申请的一种示例性实施例中,根据各关键词的位置信息确定各关键词对应的位置向量之前,上述方法还包括:
将属性结构中的关键词和会话结构中的关键词进行拼接;
根据拼接结果的关键词排列顺序依次对关键词集合中各关键词标注位置信息,得到各关键词的位置信息。
在本申请的一种示例性实施例中,根据向量集合生成联合语义向量,包括:
根据向量集合生成各待处理向量分别对应的矩阵组,矩阵组包括查询矩阵、键矩阵、值矩阵;
根据各待处理向量分别对应的矩阵组计算各待处理向量分别对应的自注意力向量;
根据前馈神经网络计算自注意力向量对应的特征向量;
基于自注意力算法以及前馈神经网络计算特征向量对应的联合语义向量。
在本申请的一种示例性实施例中,根据属性结构和会话结构生成联合结构向量,包括:
将属性结构表示为字符串序列;
根据字符串序列以及语义关系计算联合结构向量。
在本申请的一种示例性实施例中,根据字符串序列以及语义关系计算联合结构向量,包括:
基于递归神经网络和字符串序列计算属性结构对应的第一参考向量;
基于递归神经网络和语义关系计算会话结构对应的第二参考向量;
将第一参考向量和第二参考向量拼接得到联合结构向量。
在本申请的一种示例性实施例中,根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,包括:
拼接联合语义向量和联合结构向量,得到综合向量;
对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率;
通过最高概率对应的预设类别表示匹配度。
根据本申请的一方面,提供一种会话信息处理装置,包括:数据获取单元、向量计算单元以及条件判定单元,其中:
数据获取单元,用于当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息;
向量计算单元,用于计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词;
向量计算单元,还用于根据向量集合生成联合语义向量,并根据属性结构和会话结构生成联合结构向量;
条件判定单元,用于根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。
在本申请的一种示例性实施例中,上述装置还包括:信息确定单元,其中:
信息确定单元,用于在数据获取单元获取目标对象对应的属性结构和会话结构之前,以及当检测到会话窗口中展示新增聊天消息时,确定与新增聊天消息对应的会话信息;
其中,会话窗口中包括目标对象和至少一个会话对象,新增聊天消息与会话对象相对应。
在本申请的一种示例性实施例中,信息确定单元确定与新增聊天消息对应的会话信息,包括:
根据新增聊天消息从预设信息库中选择会话信息;
或者,根据新增聊天消息生成会话信息。
在本申请的一种示例性实施例中,数据获取单元获取目标对象对应的属性结构和会话结构,包括:
读取目标对象对应的属性结构;
对会话信息进行结构化处理,得到会话结构。
在本申请的一种示例性实施例中,数据获取单元对会话信息进行结构化处理,得到会话结构,包括:
根据词向量模型确定会话信息对应的词向量;
根据词向量对会话信息进行文本结构分析,得到会话信息中各语言单位之间的语义关系;
根据语义关系将会话信息表示为会话结构。
在本申请的一种示例性实施例中,数据获取单元对会话信息进行结构化处理,得到会话结构,包括:
将会话信息与预设词汇集合进行比对,以确定出会话信息中的关键词;
根据预设词汇关系构建包含会话信息中的关键词的会话结构。
在本申请的一种示例性实施例中,向量计算单元计算关键词集合对应的向量集合,包括:
根据预设向量关系确定关键词集合中各关键词的关键词向量;
根据各关键词的位置信息确定各关键词对应的位置向量;
根据各关键词分别对应的类别确定各关键词的类别向量;
根据属性结构和会话结构确定各关键词的分隔向量;其中,属性结构中的关键词的分隔向量相同,会话结构中的关键词的分隔向量相同;
将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到各关键词分别对应的待处理向量;
将各关键词分别对应的待处理向量的集合确定为向量集合。
在本申请的一种示例性实施例中,上述装置还包括:关键词拼接单元和位置标注单元,其中:
关键词拼接单元,用于在向量计算单元根据各关键词的位置信息确定各关键词对应的位置向量之前,将属性结构中的关键词和会话结构中的关键词进行拼接;
位置标注单元,用于根据拼接结果的关键词排列顺序依次对关键词集合中各关键词标注位置信息,得到各关键词的位置信息。
在本申请的一种示例性实施例中,向量计算单元根据向量集合生成联合语义向量,包括:
根据向量集合生成各待处理向量分别对应的矩阵组,矩阵组包括查询矩阵、键矩阵、值矩阵;
根据各待处理向量分别对应的矩阵组计算各待处理向量分别对应的自注意力向量;
根据前馈神经网络计算自注意力向量对应的特征向量;
基于自注意力算法以及前馈神经网络计算特征向量对应的联合语义向量。
在本申请的一种示例性实施例中,向量计算单元根据属性结构和会话结构生成联合结构向量,包括:
将属性结构表示为字符串序列;
根据字符串序列以及语义关系计算联合结构向量。
在本申请的一种示例性实施例中,向量计算单元根据字符串序列以及语义关系计算联合结构向量,包括:
基于递归神经网络和字符串序列计算属性结构对应的第一参考向量;
基于递归神经网络和语义关系计算会话结构对应的第二参考向量;
将第一参考向量和第二参考向量拼接得到联合结构向量。
在本申请的一种示例性实施例中,条件判定单元根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,包括:
拼接联合语义向量和联合结构向量,得到综合向量;
对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率;
通过最高概率对应的预设类别表示匹配度。
根据本申请的一方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本申请的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
根据本申请的一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。
在本申请的一示例实施方式所提供的会话信息处理方法中,可以当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息;计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词;根据向量集合生成联合语义向量,并根据属性结构和会话结构生成联合结构向量;根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。依据上述方案描述,本申请一方面可以提升所计算的会话信息与目标对象之间的匹配度的准确率,从而可以在匹配度满足预设条件的情况下输出会话信息,以使得目标对象所回复的会话信息与其属性结构相匹配。本申请又一方面可以提升目标对象与输出的会话信息的一致性,提升目标对象的真实性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的一种会话信息处理方法及会话信息处理装置的示例性系统架构的示意图。
图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
图3示意性示出了根据本申请的一个实施例的会话信息处理方法的流程图。
图4示意性示出了根据本申请的一个实施例的联合语义向量生成架构示意图。
图5示意性示出了根据本申请的一个实施例的会话信息处理系统的框架示意图。
图6示意性示出了根据本申请的一个实施例的会话信息处理方法的流程图。
图7示意性示出了根据本申请的一个实施例的用于展示会话信息的用户界面示意图。
图8示意性示出了根据本申请的一个实施例的用于展示会话信息的用户界面示意图。
图9示意性示出了根据本申请的一个实施例的用于展示会话信息的用户界面示意图。
图10示意性示出了根据本申请的一个实施例中的会话信息处理装置的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本申请实施例的一种会话信息处理方法及会话信息处理装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。另外,服务器105可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
需要说明的是,上述的云服务器可以利用云技术提供基础云计算服务。云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
另外,上述的基础云计算服务中包括的云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing )、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(UtilityComputing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
以及,基础云计算服务中包括的云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念,分布式云存储系统 (以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能,将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作,共同对外提供数据存储和业务访问功能的一个存储系统。目前,存储系统的存储方法为:创建逻辑卷,在创建逻辑卷时,就为每个逻辑卷分配物理存储空间,该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。 客户端在某一逻辑卷上存储数据,也就是将数据存储在文件系统上,文件系统将数据分成许多部分,每一部分是一个对象,对象不仅包含数据而且还包含数据标识(ID,ID entity) 等额外的信息,文件系统将每个对象分别写入该逻辑卷的物理存储空间,且文件系统会记录每个对象的存储位置信息,从而当客户端请求访问数据时,文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。存储系统为逻辑卷分配物理存储空间的过程,具体为:按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(RAID,Redundant Array ofIndependent Disk)的组别,预先将物理存储空间划分成分条,一个逻辑卷可以理解为一个分条,从而为逻辑卷分配了物理存储空间。
以及,基础云计算服务中包括的数据库(Database)可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。
以及,基础云计算服务中包括的大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
本申请实施例所提供的会话信息处理方法一般由服务器105执行,相应地,会话信息处理装置一般设置于服务器105中。但本领域技术人员容易理解的是,本申请实施例所提供的会话信息处理方法也可以由终端设备101、102或103执行,相应的,会话信息处理装置也可以设置于终端设备101、102或103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,服务器105可以当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息;计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词;根据向量集合生成联合语义向量,并根据属性结构和会话结构生成联合结构向量;根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。
图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本申请的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。
在现有技术中,用户可以通过具备聊天功能的平台与其他用户聊天。但是,随着现代生活的节奏越来越快,当用户A存在聊天需求时,可能用户B正处于忙碌状态,无法及时满足用户A的需求。并且,由于不同用户偏好的聊天对象一般不同,所偏好的用户B无法聊天时,可能用户C处于非忙碌状态但是用户C却非用户A所偏好的用户。可见,无法及时满足用户聊天需求的情况时有发生。
申请人想到,可以设计网络虚拟角色,使得用户在有聊天需求时可以随时与所偏好的网络虚拟角色进行聊天,这样可以满足用户的即时聊天需求。具体地,申请人还想到,网络虚拟角色可以对应于一种对话系统,该对话系统可以根据网络虚拟角色的属性信息和用户发送的聊天内容生成对应的回复信息,以实现满足用户即时聊天需求的目的。
基于现有技术可以想到,自然语言语义互动(Natural Language Interaction,NLI)管理系统可以应用于上述的对话系统,但是,基于NLI的时序性特点,一般在对网络虚拟角色的属性信息(如,姓名、性别、所在地等)进行建模时容易因属性间无时序关系而忽略掉其中的重要信息,从而可能造成生成的回复信息与属性信息不匹配的问题,即,回复信息与网络虚拟角色的设定不相符的问题,进而容易影响用户的沉浸式聊天体验。
举例来说,网络虚拟角色的属性信息如下:
姓名 小H
性别
所在地 A市
星座 水瓶座
年龄 16
根据NLI可以对上述属性信息进行建模,若用户的聊天内容为“我要去A市了”,依据该聊天内容生成的小H的对话信息可以包括以下可选项R1~R3:R1:很高兴你能来A市;R2:我也想有一天能去A市玩;R3:你来之后我带你去XX大学逛逛。其中,由于小H的所在地为A市,因此,生成的R2与小H的属性信息是不相符的。
可见,NLI基于时序关系的建模结果导致所生成的R2与上述属性信息不相符,若针对用户的聊天内容输出R2,则容易造成回复内容与属性信息不匹配的问题,影响用户的沉浸式聊天体验。
基于上述内容中提出的技术问题,本示例实施方式提供了一种会话信息处理方法。该会话信息处理方法可以应用于上述服务器105,也可以应用于上述终端设备101、102、103中的一个或多个,本示例性实施例中对此不做特殊限定。参考图3所示,该会话信息处理方法可以包括以下步骤S310至步骤S350。
步骤S310:当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息。
步骤S320:计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词。
步骤S330:根据向量集合生成联合语义向量。
步骤S340:根据属性结构和会话结构生成联合结构向量。
步骤S350:根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。
可以理解的是,本申请可以应用于用户与虚拟人物之间的对话系统,提升虚拟人物回复用户的信息与虚拟人物设定的匹配度,从而使得用户感知到的虚拟人物更为生动,避免出现因回复内容与虚拟人物设定不匹配而造成的违和感。
实施图3所示的方法,可以提升所计算的会话信息与目标对象之间的匹配度的准确率,从而可以在匹配度满足预设条件的情况下输出会话信息,以使得目标对象所回复的会话信息与其属性结构相匹配。此外,还可以提升目标对象与输出的会话信息的一致性,提升目标对象的真实性。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息。
具体地,目标对象可以为参与会话的真实用户,也可以为参与会话的虚拟用户(如,AI主播),本申请实施例不作限定。此外,上述的属性结构可以作为目标对象的个性化描述,属性结构可以包括如下关键词:性别、地址、星座、年龄以及职业等。举例来说,属性结构可以表示为:{性别:男,地点:S市,星座:狮子座,年龄:20,职业:研究员}或{性别:女,地点:A市,星座:狮子座}等。不仅属性结构可以通过多个属性关键词进行表示,会话结构也可以通过多个会话关键词进行表示;其中,会话关键词源自会话信息。举例来说,会话结构可以表示为:{我,很,高兴,你,能,来,到,A市},其中,会话结构中还可以包括各关键词之间的语义关系。
作为一种可选的实施例,获取目标对象对应的属性结构和会话结构之前,上述方法还包括:当检测到会话窗口中展示新增聊天消息时,确定与新增聊天消息对应的会话信息;其中,会话窗口中包括目标对象和至少一个会话对象,新增聊天消息与会话对象相对应。
具体地,新增聊天消息可以包括:文本信息、文本信息+图片信息或者文本信息+表情符号。新增聊天消息中可以包括会话对象对应的信息(如,@用户1)。此外,可选的,确定与新增聊天消息对应的会话信息之前,还可以包括:根据预设单位时长(如,10ms)检测会话窗口中是否存在新增聊天消息。
可见,实施该可选的实施例,能够在检测到用户输入的对应于目标对象的聊天消息时,按照目标对象的属性对其进行回应,提供了一种聊天功能,以满足用户的即时聊天需求。
作为一种可选的实施例,确定与新增聊天消息对应的会话信息,包括:根据新增聊天消息从预设信息库中选择会话信息;或者,根据新增聊天消息生成会话信息。
具体地,预设信息库用于存储可调用的多种预设会话信息。进而,根据新增聊天消息从预设信息库中选择会话信息的方式可以为:确定新增聊天消息中的聊天关键词(如,天气),根据聊天关键词从预设信息库中选择会话信息(如,“今天是阴天”、“今天不会下雨”或者 “今天不会出太阳”)。
可选的,根据新增聊天消息生成会话信息的方式可以为:确定新增聊天消息中的聊天关键词,根据聊天关键词和目标对象的属性结构生成会话信息。其中,会话信息中可以包括属性结构中的属性关键词。
可见,实施该可选的实施例,能够根据用户输入的新增聊天消息的内容确定相对应的会话信息,这样可以提升用户的聊天体验,一定程度地避免答非所问的情况。
作为一种可选的实施例,获取目标对象对应的属性结构和会话结构,包括:读取目标对象对应的属性结构;对会话信息进行结构化处理,得到会话结构。
具体地,目标对象可以对应多组属性结构,例如,目标对象小H对应的多组属性结构可以为:{性别:女,年龄:16,地点:A市,星座:白羊座}、{性别:女,年龄:16,地点:B市,星座:狮子座}以及{性别:女,年龄:16,地点:C市,星座:处女座}。
进而,读取目标对象对应的属性结构的方式可以为:确定新增聊天消息对应的目标对象设定,读取目标对象设定对应的属性结构;其中,不同的目标对象设定对应于不同的属性结构,用户可以根据偏好个性化选择目标对象设定。
进一步地,读取目标对象对应的属性结构之前,还可以执行以下步骤:通过不同的虚拟形象表征不同的目标对象设定并展示虚拟形象;当检测到作用于目标虚拟形象的交互操作时,将目标虚拟形象对应的目标对象设定确定为新增聊天消息对应的目标对象设定。
可见,实施该可选的实施例,能够确定出目标对象的属性结构和会话结构,从而有利于根据属性结构和会话结构判定目标对象与会话信息的匹配度,以避免所输出的会话信息与目标对象不匹配的情况。
作为一种可选的实施例,对会话信息进行结构化处理,得到会话结构,包括:根据词向量模型确定会话信息对应的词向量;根据词向量对会话信息进行文本结构分析,得到会话信息中各语言单位之间的语义关系;根据语义关系将会话信息表示为会话结构。
具体地,文本结构分析中可以包括语义依存分析,语义依存分析 (SemanticDependency Parsing, SDP) ,用于分析会话信息中各个语言单位之间的语义关系,并以依存关系树 DT (dependency tree)呈现语义关系。其中,语义关系可以包括如下类型:施事关系(Agt)、当事关系(Exp)、感事关系(Aft)、领事关系(Poss)、受事关系(Pat)、客事关系(Cont)以及成事关系(Prod)等。此外,会话结构可以用于表示语言单位以及各语言单位之间的语义关系。此外,词向量模型可以为GloVe(Global Vectors for WordRepresentation),GloVe是一个基于全局词频统计的词表征工具,可以将一个词表达成一个由实数组成的向量,该向量用于表征词的语义特性。
进而,根据词向量对会话信息进行文本结构分析,得到会话信息中各语言单位之间的语义关系的方式可以为:根据词向量对会话信息进行语义依存分析,得到会话信息中各语言单位之间的语义关系;其中,语言单位(如,我、很、高兴、你、能、来、到、A市)可以为会话关键词。或者,根据词向量对会话信息进行抽象语义表示(Abstract meaningrepresention,AMR),得到会话信息中各语言单位之间的语义关系;其中,AMR是一种语义表示方法,基本结构为“单根有向无环图”,AMR可以将实词抽象为概念作为单根有向无环图上的节点,将没有实际意义的虚词抽象为边。
可选的,上述方法还可以包括以下步骤:
根据语料库构建共现矩阵X;
构建用于表示词向量和X之间近似关系的词向量模型:
Figure 669796DEST_PATH_IMAGE001
Figure DEST_PATH_IMAGE002
Figure 259040DEST_PATH_IMAGE003
用于表征词向量,
Figure DEST_PATH_IMAGE004
Figure 724263DEST_PATH_IMAGE005
用于表示词向量的偏置项;
根据词向量模型确定损失函数表达式:J
Figure DEST_PATH_IMAGE006
Figure 978527DEST_PATH_IMAGE007
为非递减的权重函数,
Figure DEST_PATH_IMAGE008
根据损失函数表达式以及词向量模型的样本输出结果调整词向量模型的模型参数,以实现对于词向量模型的预训练。其中,共现矩阵X的元素Xij可以表示单词i和上下文单词j在预设尺寸的上下文窗口内共同出现的次数。例如,
Figure 481315DEST_PATH_IMAGE007
可以表示为
Figure 38198DEST_PATH_IMAGE009
其中,
Figure DEST_PATH_IMAGE010
为常数,如,0.75。
可选的,若根据词向量对会话信息进行文本结构分析之后,未得到会话信息中各语言单位之间的语义关系,则可以执行以下步骤:返回失败提示。
可见,实施该可选的实施例,能够通过对会话信息的语义分析,实现对会话信息的结构化处理,从而有利于确定目标对象与会话信息之间的匹配度。
作为另一种可选的实施例,对会话信息进行结构化处理,得到会话结构,包括:将会话信息与预设词汇集合进行比对,以确定出会话信息中的关键词;根据预设词汇关系构建包含会话信息中的关键词的会话结构。
具体地,预设词汇集合中可以包括预存储的词汇,预设词汇关系可以为预设的一一对应关系,用于表征相邻语言单位之间的关系。
可见,实施该可选的实施例,能够根据预设信息确定出会话信息对应的会话结构,从而可以基于会话结构和属性结构共同确定匹配度,提升计算匹配度的准确率。
在步骤S320中,计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词。
具体地,向量集合中可以包括:关键词向量、位置向量、类别向量以及分隔向量。举例来说,若属性结构为{性别:女,地点:北京,星座:狮子座},会话结构为{我,很,高兴,你,能,来,到,A市},则关键词集合可以为:{性别,女,地点,北京,星座,狮子座,[SEP],我,很,高兴,你,能,来,到,A市};其中,[SEP]为分句符号,用于分隔关键词语料。
作为一种可选的实施例,计算关键词集合对应的向量集合,包括:根据预设向量关系确定关键词集合中各关键词的关键词向量;根据各关键词的位置信息确定各关键词对应的位置向量;根据各关键词分别对应的类别确定各关键词的类别向量;根据属性结构和会话结构确定各关键词的分隔向量;其中,属性结构中的关键词的分隔向量相同,会话结构中的关键词的分隔向量相同;将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到各关键词分别对应的待处理向量;将各关键词分别对应的待处理向量的集合确定为向量集合。
具体地,预设向量关系可以用于表征不同的关键词与关键词向量之间的一一对应关系,关键词向量可以表示为实数列表,关键词集合中各关键词对应的关键词向量可以对应于同一维度(如,768)。另外,上述的对位相加用于表示:关键词向量、位置向量、类别向量以及分隔向量之间相同位置的元素加和,例如,关键词“天气”对应的关键词向量(1,1,1)、位置向量(2,2,2)、类别向量(3,3,3)以及分隔向量(4,4,4)进行对位相加(1+2+3+4,1+2+3+4,1+2+3+4)之后,可以得到关键词“天气”对应的待处理向量(10,10,10)。
可选的,根据各关键词的位置信息确定各关键词对应的位置向量的方式可以为:若位置信息为偶数,则对该位置信息对应的关键词进行正弦编码;若位置信息为奇数,则对该位置信息对应的关键词进行余弦编码,从而,得到各关键词对应的位置向量。
可选的,根据各关键词分别对应的类别确定各关键词的类别向量的方式可以为:将对应于同一类别的关键词(如,“性别”和“男”)进行统一的类别向量表示,不同类别的关键词对应于不同的类别向量。
可选的,根据属性结构和会话结构确定各关键词的分隔向量的方式可以为:将属于属性结构的关键词通过相同的分隔向量进行表示,将属于会话结构的关键词通过相同的分隔向量进行表示,属性结构的关键词与会话结构的关键词对应的分隔向量不同。
可见,实施该可选的实施例,能够计算各关键词对应的不同类型向量,并进行向量融合,得到各关键词对应的待处理向量,以便根据待处理向量集合计算目标对象与会话信息的匹配度,提升匹配度的计算准确率。
作为一种可选的实施例,根据各关键词的位置信息确定各关键词对应的位置向量之前,上述方法还包括:将属性结构中的关键词和会话结构中的关键词进行拼接;根据拼接结果的关键词排列顺序依次对关键词集合中各关键词标注位置信息,得到各关键词的位置信息。
其中,拼接结果中包括属性结构的属性关键词和会话结构中的会话关键词;位置信息可以通过数值进行表示。
可选的,将属性结构中的关键词和会话结构中的关键词进行拼接的方式可以为:根据分句符号将属性结构中的关键词和会话结构中的关键词按照顺序进行拼接(如,{性别,女,地点,北京,星座,狮子座,[SEP],我,很,高兴,你,能,来,到,A市})。举例来说,按照关键词排列顺序所标注的位置信息可以表示如下:
性别 地点 北京 星座 狮子座 [SEP] 高兴 A市
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
可见,实施该可选的实施例,能够对关键词进行位置信息标注,从而有利于计算关键词的位置向量,以提升后续计算匹配度的准确率。
在步骤S330中,根据向量集合生成联合语义向量。
可选的,根据向量集合生成联合语义向量的方式可以为:将向量集合输入BERT(Bidirectional Encoder Representations from Transformers)模型,以使得BERT根据向量集合生成联合语义向量,联合语义向量用于表示每个关键词的输出概率;其中,BERT是一种语言分析模型。
在步骤S340中,根据属性结构和会话结构生成联合结构向量。
可选的,根据属性结构和会话结构生成联合结构向量的方式可以为:将属性结构和会话结构输入针对成分树(Tree)的长短期记忆网络(Long Short Term Memorynetworks,LSTM)模型(即,Tree LSTM),以使得Tree LSTM根据属性结构和会话结构生成联合结构向量,生成联合结构向量是属性结构和会话结构的向量化表示。
可选的,在将向量集合输入BERT模型之前,还可以执行:根据预设损失函数训练BERT模型;其中,预设损失函数可以为回归损失函数、平方误差损失函数、绝对误差损失函数、Huber损失函数、二分类损失函数、二分类交叉熵、Hinge损失函数、多分类损失函数、多分类交叉熵损失或KL散度(Kullback Leibler Divergence Loss),本申请实施例不作限定。同理,在将属性结构和会话结构输入Tree LSTM模型之前,还可以执行:根据预设损失函数训练Tree LSTM模型。
作为一种可选的实施例,根据向量集合生成联合语义向量,包括:根据向量集合生成各待处理向量分别对应的矩阵组,矩阵组包括查询矩阵、键矩阵、值矩阵;根据各待处理向量分别对应的矩阵组计算各待处理向量分别对应的自注意力向量;根据前馈神经网络计算自注意力向量对应的特征向量;基于自注意力算法以及前馈神经网络计算特征向量对应的联合语义向量。
基于前述限定,根据向量集合生成联合语义向量的步骤可以基于BERT模型实现;其中,BERT模型中采用了机器翻译(Transformer)模型的编解码模式,Transformer模型由编码组件和解码组件构成,编码组件由多个编码器构成,解码组件由多个解码器构成,编码器和解码器的数量相同;其中,每个编码器中均包括前馈神经网络和自注意力层,每个解码器中均包括前馈神经网络、编码-解码注意力层以及自注意力层。
可选的,若自注意力层中存在多头自注意力,根据向量集合生成各待处理向量分别对应的矩阵组的方式可以为:生成与各待处理向量对应的至少两个参考矩阵组;将对应于同一待处理向量的参考矩阵组进行拼接,得到各待处理向量对应的矩阵组;其中,参考矩阵组的数量与自注意力的头数(如,8)一致。
可选的,根据向量集合生成各待处理向量分别对应的矩阵组的方式可以为:确定各待处理向量对应的查询权重矩阵
Figure 977336DEST_PATH_IMAGE011
、键权重矩阵
Figure DEST_PATH_IMAGE012
以及值权重矩阵
Figure 628766DEST_PATH_IMAGE013
;将待处理向量i分别与
Figure 766486DEST_PATH_IMAGE011
Figure 228691DEST_PATH_IMAGE012
以及
Figure 451862DEST_PATH_IMAGE013
相乘,得到包括查询矩阵
Figure DEST_PATH_IMAGE014
、键矩阵
Figure 602921DEST_PATH_IMAGE015
、值矩阵
Figure DEST_PATH_IMAGE016
的与待处理向量i对应的矩阵组;循环执行上述步骤,直到确定出所有待处理向量分别对应的矩阵组;
其中,
Figure 313257DEST_PATH_IMAGE017
,n为正整数。
进一步地,根据各待处理向量分别对应的矩阵组计算各待处理向量分别对应的自注意力向量的方式可以为:
依据下述表达式计算各待处理向量对应的自注意力向量Zi
Figure DEST_PATH_IMAGE018
其中,
Figure 369200DEST_PATH_IMAGE019
用于稳定梯度,
Figure DEST_PATH_IMAGE020
(如,8)为常数。
可选的,根据前馈神经网络计算自注意力向量对应的特征向量的方式可以为:
根据如下前馈神经网络对自注意力向量进行特征提取,得到自注意力向量对应的特征向量
Figure 548509DEST_PATH_IMAGE021
其中,W1、b1、W2以及b2为可调参数,可以表示为常数。
前馈神经网络包括激活函数层和整流性单元函数层,用于对向量中的元素进行归一化,防止梯度消失。具体地,激活函数层可以包括sigmoid函数或tanh函数;整流性单元函数层可以包括relu函数。
可选的,基于自注意力算法以及前馈神经网络计算特征向量对应的联合语义向量的方式可以为:通过多次编解码处理上述的特征向量,以计算得到特征向量对应的联合语义向量;其中,编解码处理可以依赖于自注意力算法以及前馈神经网络。
请参阅图4,图4示意性示出了根据本申请的一个实施例的联合语义向量生成架构示意图。如图4所示,联合语义向量生成架构中可以包括编码器、解码器和全连接层406;其中,编码器可以包括前馈神经网络401和自注意力层402,解码器可以包括前馈神经网络403、编码-解码注意力层404以及自注意力层405。需要说明的是,图4中的编码器和解码器仅为示意性示出,在实际应用过程中,对于编码器和解码器的数量不作限定。
具体地,自注意力层402在接收到输入BERT模型的向量集合后,可以针对向量集合中各关键词对应的向量计算各关键词对应的矩阵组,并根据矩阵组计算各待处理向量分别对应的自注意力向量,以作为前馈神经网络401的输入;进而,前馈神经网络401可以对自注意力向量进行特征提取,得到自注意力向量对应的特征向量。进一步地,若BERT模型中包括N个编码器,N为大于等于2的正整数,则依次通过N个编码器对特征向量进行特征编码。进而,将特征编码结果输入解码器,以使得解码器中的自注意力层405、编码-解码注意力层404以及自注意力层405对编码结果进行解码并输入全连接层406。全连接层406可以输出用于表示每个关键词输出概率的联合语义向量。
可见,实施该可选的实施例,能够结合各个关键词的多类型向量将属性结构和会话信息进行联合,从而有利于精准计算匹配度,避免出现输出的会话信息与目标对象的属性结构不匹配的情况。
作为一种可选的实施例,根据属性结构和会话结构生成联合结构向量,包括:将属性结构表示为字符串序列;根据字符串序列以及语义关系计算联合结构向量。
具体地,字符串序列中的字符串分别用于表征关键词在属性结构中的节点位置。举例来说,属性结构如下所示:
Figure DEST_PATH_IMAGE022
其中,包括关键词{[KV]、性别、女、地点、A市、星座、水瓶座}的属性结构对应的字符串序列可以为{0 1 2 1 4 1 6},[KV]可以对应父节点0,[KV]用于表示目标对象,性别、地点和星座可以对应子节点1,女、A市和水瓶座可以依次对应子节点2、4、6。
可见,实施该可选的实施例,能够结合属性关键词和会话关键词计算出匹配度判定所需的向量,从而有利于提升匹配度判定的准确率。
作为一种可选的实施例,根据字符串序列以及语义关系计算联合结构向量,包括:基于递归神经网络和字符串序列计算属性结构对应的第一参考向量;基于递归神经网络和语义关系计算会话结构对应的第二参考向量;将第一参考向量和第二参考向量拼接得到联合结构向量。
具体地,上述的递归神经网络可以为Tree LSTM,TreeLSTM中每个单元都包括输入门、输出门、单元状态和隐层输出,TreeLSTM单元中门向量和细胞状态的更新依赖于所有与之相关的子单元的状态。另外, TreeLSTM拥有多个遗忘门,分别对应当前单元的每个子单元, TreeLSTM可以选择性地从子节点中获取信息。另外,第一参考向量是对属性结构的向量化表示,第二参考向量是对会话结构的向量化表示。
可选的,基于递归神经网络和字符串序列计算属性结构对应的第一参考向量的方式可以为:确定构成属性结构的属性关键词所对应的属性关键词向量;将包含字符串序列的属性关键词向量输入递归神经网络,以使得递归神经网络根据字符串序列构建关键词节点树,并根据关键词节点树计算属性结构对应的第一参考向量。
具体地,可以根据下述表达式对关键词节点树中每个节点进行计算:
输入门
Figure 745004DEST_PATH_IMAGE023
遗忘门
Figure DEST_PATH_IMAGE024
输出门
Figure 326158DEST_PATH_IMAGE025
进而,可以得到如下表达式:
Figure DEST_PATH_IMAGE026
其中,
Figure 346810DEST_PATH_IMAGE027
Cj为关键词节点树中的节点
Figure DEST_PATH_IMAGE028
的子节点集合;
根据Cj可以计算得到隐藏状态
Figure 65279DEST_PATH_IMAGE029
进而,根据hj可以计算得到第一参考向量
Figure DEST_PATH_IMAGE030
同理,基于递归神经网络和语义关系计算会话结构对应的第二参考向量的方式可以为:确定构成会话结构的会话关键词所对应的会话关键词向量;将包含语义关系的会话关键词向量输入递归神经网络,以使得递归神经网络根据语义关系构建关键词节点树,并根据关键词节点树计算会话结构对应的第二参考向量。
可见,实施该可选的实施例,能够实现对于会话结构和属性结构的向量化表示,以将结构向量作为匹配度计算的条件,提升计算匹配度的准确率。
在步骤S350中,根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。
具体地,预设条件可以表示为数值范围、也可以表示为对标签/类别的限定,本申请实施例不作限定。举例来说,预设条件可以为:匹配度大于80%;或者,匹配度表示为文本信息“一致”。此外,若匹配度不满足预设条件,还可以执行以下步骤:丢弃该会话信息。
可选的,若匹配度满足预设条件则输出会话信息,具体包括:若匹配度满足预设条件,则将该会话信息添加至合格信息列表;当检测到单位时间内生成的所有待输出的会话消息均完成匹配度计算时,可以从合格信息列表中选取目标会话信息并输出。其中,合格信息列表中可以包括一个或多个会话信息,合格信息列表中的会话信息对应的匹配度均满足于预设条件。
进一步地,若匹配度通过数值(如,80%)进行表示,从合格信息列表中选取目标会话信息的方式可以为:从合格信息列表中选取匹配度最高的前N个会话信息作为目标会话信息;其中,N为正整数。若匹配度通过标签/类别进行表示,从合格信息列表中选取目标会话信息的方式可以为:从合格信息列表中随机选取至少一个会话消息作为目标会话信息。
作为一种可选的实施例,根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,包括:拼接联合语义向量和联合结构向量,得到综合向量;对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率;通过最高概率对应的预设类别表示匹配度。
具体地,预设类别可以为:一致、矛盾或无关。其中,一致,指的是会话消息中包含属性信息且不含有与属性信息相矛盾的事实。矛盾,指的是会话消息中包含属性信息且含有与属性信息相矛盾的事实。无关,指的是会话消息中未包含属性信息。
可选的,拼接联合语义向量和联合结构向量,得到综合向量的方式可以为:将N1维联合语义向量和N2维的联合结构向量进行拼接,得到(N1+ N2)维的综合向量。其中,N1和N2均为正整数,N1和N2可以相同也可以不同。
可选的,对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率的方式可以为:通过全连接层将综合向量映射为低维综合向量,其中,低维综合向量中的元素数量(如,3)与预设类别数量(如,3)一致,以实现对于综合向量的降维;通过softmax逻辑回归模型将低维综合向量中各元素转换为概率表示,概率表示与预设类别一一对应,各概率表示分别用于表征会话消息属于该预设类别的可能性;其中,全连接层中包含的神经元数量(如,4096),本申请实施例不作限定。
可见,实施该可选的实施例,能够结合语义和信息结构确定目标对象与会话信息之间的匹配度,可以提升计算匹配度的准确率,一定程度地避免目标对象与输出的会话信息不一致的问题,可以使得用户感知到的目标对象更为生动。
请参阅图5,图5示意性示出了根据本申请的一个实施例的会话信息处理系统的框架示意图。如图5所示,该会话信息处理系统可以包括:语义提取网络510、语义提取网络520以及全连接层。具体地,当检测到会话窗口中展示新增聊天消息“小H,我来A市了”时,确定与新增聊天消息对应的待输出的会话信息“我很高兴你能来到A市”。进而,可以读取目标对象小H对应的属性结构{性别:女,年龄:16,地点:A市,星座:白羊座},并对会话信息进行结构化处理,得到会话结构{我,很,高兴,你,能,来,到,A市}。
进而,可以根据预设向量关系确定由属性结构中的关键词和会话结构中的关键词构成的关键词集合{性别,女,地点,北京,星座,狮子座,[SEP],我,很,高兴,你,能,来,到,A市})中各关键词的关键词向量;根据各关键词的位置信息{1,2,3,4,5,6,7,8,……,14,15}确定各关键词对应的位置向量;根据各关键词分别对应的类别确定各关键词的类别向量{aa,bb,cc,dd,……,dd};根据属性结构和会话结构确定各关键词的分隔向量{0,0,0,0,0,0,1,1,……,1,1}。
进而,可以将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到各关键词分别对应的待处理向量,各关键词分别对应的待处理向量的集合确定为向量集合,向量集合包括:待处理向量1、待处理向量2、待处理向量3、待处理向量4、待处理向量5、待处理向量6、待处理向量7、待处理向量8、……、待处理向量14和待处理向量15。进而,可以将向量集合输入语义提取网络510,以使得语义提取网络510基于自注意力算法以及前馈神经网络计算联合语义向量。以及,还可以将包含属性关键词{[KV]、性别、女、地点、A市、星座、水瓶座}的属性结构和包含会话关键词{[SEP],我,很,高兴,你,能,来,到,A市}和语义关系的会话结构分别以待处理向量16和待处理向量17的形式输入语义提取网络520,以使得语义提取网络520计算得到用于对属性结构和会话结构进行向量表示的联合结构向量;其中,待处理向量16可以包括属性关键词向量,待处理向量17可以包括会话关键词向量。
进而,还可以拼接联合语义向量和联合结构向量,得到综合向量,并通过全连接层530对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率[X%(一致),Y%(矛盾),Z%(无关)];其中,最高概率对应的预设类别可以用于表示目标对象与会话信息之间的匹配度。
请参阅图6,图6示意性示出了根据本申请的一个实施例的会话信息处理方法的流程图。如图6所示,该会话信息处理方法可以包括:步骤S600~步骤S680,其中:
步骤S600:当检测到会话窗口中展示新增聊天消息时,确定与新增聊天消息对应的待输出的会话信息;其中,会话窗口中包括目标对象和至少一个会话对象,新增聊天消息与会话对象相对应。
步骤S610:读取目标对象对应的属性结构,并根据词向量模型确定会话信息对应的词向量,根据词向量对会话信息进行语义依存分析,得到会话信息中各语言单位之间的语义关系,进而根据语义关系将会话信息表示为会话结构。
步骤S620:根据预设向量关系确定关键词集合中各关键词的关键词向量、根据各关键词的位置信息确定各关键词对应的位置向量、根据各关键词分别对应的类别确定各关键词的类别向量、根据属性结构和会话结构确定各关键词的分隔向量。
步骤S630:将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到各关键词分别对应的待处理向量,并将各关键词分别对应的待处理向量的集合确定为向量集合。
步骤S640:根据向量集合生成各待处理向量分别对应的矩阵组,矩阵组包括查询矩阵、键矩阵、值矩阵,并根据各待处理向量分别对应的矩阵组计算各待处理向量分别对应的自注意力向量。
步骤S650:根据前馈神经网络计算自注意力向量对应的特征向量,基于自注意力算法以及前馈神经网络计算特征向量对应的联合语义向量。
步骤S660:将属性结构表示为字符串序列,并基于递归神经网络和字符串序列计算属性结构对应的第一参考向量,以及基于递归神经网络和语义关系计算会话结构对应的第二参考向量,进而将第一参考向量和第二参考向量拼接得到联合结构向量。
步骤S670:拼接联合语义向量和联合结构向量,得到综合向量,进而对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率。
步骤S680:通过最高概率对应的预设类别表示匹配度,若匹配度满足预设条件则输出会话信息。
需要说明的是,步骤S600~步骤S680与图3所示的各步骤及其实施例相对应,针对步骤S600~步骤S680的实施方式,请参阅图3所示的各步骤及其实施例,此处不再赘述。
可见,实施图6所示的方法,可以提升所计算的会话信息与目标对象之间的匹配度的准确率,从而可以在匹配度满足预设条件的情况下输出会话信息,以使得目标对象所回复的会话信息与其属性结构相匹配。此外,还可以提升目标对象与输出的会话信息的一致性,提升目标对象的真实性。
请参阅图7,图7示意性示出了根据本申请的一个实施例的用于展示会话信息的用户界面示意图。如图7所示,在用户中的展示界面中,可以包括目标对象展示区域710、交互区域720以及会话展示区域730;其中,交互区域720可以包括:交互功能721、交互功能722、……、交互功能723,交互功能可以包括点歌功能、送礼物功能以及评价功能等。会话展示区域730可以处于目标对象展示区域710的右侧或左侧,使得用户在观看目标对象动态展示时还可以同步看到会话内容。
需要说明的是,图7~图9中展示了用户1、用户2以及目标对象小H的多人会话内容,如下所示:
用户1:@小H 你是谁。小H:@用户1 你好,这里是你的专属歌姬小H!用户1:@小H 你来自哪里
Figure DEST_PATH_IMAGE031
小H:@用户1 我来自A市。用户1:@小H 你几岁了
Figure 534307DEST_PATH_IMAGE031
小H:@用户1 我已经16岁了。用户2:@小H 给我唱首《小芒果》吧。小H:@用户2 好的!
可见,小H可以根据不同的用户的聊天消息进行相应的回复,保持所回复的内容与小H的属性相匹配。
请参阅图8,图8示意性示出了根据本申请的一个实施例的用于展示会话信息的用户界面示意图。如图8所示,在用户中的展示界面中,可以包括目标对象展示区域810、交互区域820以及会话展示区域830;其中,交互区域820可以包括:交互功能821、交互功能822、……、交互功能823,交互功能可以包括点歌功能、送礼物功能以及评价功能等。会话展示区域830可以处于目标对象展示区域810的上侧或下侧,使得用户在观看目标对象动态展示时还可以同步看到会话内容。
请参阅图9,图9示意性示出了根据本申请的一个实施例的用于展示会话信息的用户界面示意图。如图9所示,在用户中的展示界面中,可以包括目标对象展示区域910、交互区域920以及会话展示窗口930;其中,交互区域920可以包括:交互功能921、交互功能922、……、交互功能923,交互功能可以包括点歌功能、送礼物功能以及评价功能等。在图9中,会话展示窗口930可以以弹窗的形式覆盖部分目标对象展示区域910,用户可以在需要查看会话展示窗口930时通过手势、点击、语音唤醒等操作触发会话展示窗口930弹出,并且可以在不需要查看会话展示窗口930时通过关闭窗口控件关闭会话展示窗口930,进而实现对于目标对象的全屏观赏。需要说明的是,图7~图9分别提供了三种不同的展示方式。
进一步的,本示例实施方式中,还提供了一种会话信息处理装置。参考图10所示,该会话信息处理装置1000可以包括:数据获取单元1001、向量计算单元1002以及条件判定单元1003,其中:
数据获取单元1001,用于当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,会话结构用于表征会话信息;
向量计算单元1002,用于计算关键词集合对应的向量集合;其中,关键词集合包括属性结构中的关键词和会话结构中的关键词;
向量计算单元1002,还用于根据向量集合生成联合语义向量,并根据属性结构和会话结构生成联合结构向量;
条件判定单元1003,用于根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,若匹配度满足预设条件则输出会话信息。
可见,实施图10所示的装置,可以提升所计算的会话信息与目标对象之间的匹配度的准确率,从而可以在匹配度满足预设条件的情况下输出会话信息,以使得目标对象所回复的会话信息与其属性结构相匹配。此外,还可以提升目标对象与输出的会话信息的一致性,提升目标对象的真实性。
在本申请的一种示例性实施例中,上述装置还包括:信息确定单元(未图示),其中:
信息确定单元,用于在数据获取单元1001获取目标对象对应的属性结构和会话结构之前,以及当检测到会话窗口中展示新增聊天消息时,确定与新增聊天消息对应的会话信息;
其中,会话窗口中包括目标对象和至少一个会话对象,新增聊天消息与会话对象相对应。
可见,实施该可选的实施例,能够在检测到用户输入的对应于目标对象的聊天消息时,按照目标对象的属性对其进行回应,提供了一种聊天功能,以满足用户的即时聊天需求。
在本申请的一种示例性实施例中,信息确定单元确定与新增聊天消息对应的会话信息,包括:
根据新增聊天消息从预设信息库中选择会话信息;
或者,根据新增聊天消息生成会话信息。
可见,实施该可选的实施例,能够根据用户输入的新增聊天消息的内容确定相对应的会话信息,这样可以提升用户的聊天体验,一定程度地避免答非所问的情况。
在本申请的一种示例性实施例中,数据获取单元1001获取目标对象对应的属性结构和会话结构,包括:
读取目标对象对应的属性结构;
对会话信息进行结构化处理,得到会话结构。
可见,实施该可选的实施例,能够确定出目标对象的属性结构和会话结构,从而有利于根据属性结构和会话结构判定目标对象与会话信息的匹配度,以避免所输出的会话信息与目标对象不匹配的情况。
在本申请的一种示例性实施例中,数据获取单元1001对会话信息进行结构化处理,得到会话结构,包括:
根据词向量模型确定会话信息对应的词向量;
根据词向量对会话信息进行文本结构分析,得到会话信息中各语言单位之间的语义关系;
根据语义关系将会话信息表示为会话结构。
可见,实施该可选的实施例,能够通过对会话信息的语义分析,实现对会话信息的结构化处理,从而有利于确定目标对象与会话信息之间的匹配度。
在本申请的一种示例性实施例中,数据获取单元1001对会话信息进行结构化处理,得到会话结构,包括:
将会话信息与预设词汇集合进行比对,以确定出会话信息中的关键词;
根据预设词汇关系构建包含会话信息中的关键词的会话结构。
可见,实施该可选的实施例,能够根据预设信息确定出会话信息对应的会话结构,从而可以基于会话结构和属性结构共同确定匹配度,提升计算匹配度的准确率。
在本申请的一种示例性实施例中,向量计算单元1002计算关键词集合对应的向量集合,包括:
根据预设向量关系确定关键词集合中各关键词的关键词向量;
根据各关键词的位置信息确定各关键词对应的位置向量;
根据各关键词分别对应的类别确定各关键词的类别向量;
根据属性结构和会话结构确定各关键词的分隔向量;其中,属性结构中的关键词的分隔向量相同,会话结构中的关键词的分隔向量相同;
将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到各关键词分别对应的待处理向量;
将各关键词分别对应的待处理向量的集合确定为向量集合。
可见,实施该可选的实施例,能够计算各关键词对应的不同类型向量,并进行向量融合,得到各关键词对应的待处理向量,以便根据待处理向量集合计算目标对象与会话信息的匹配度,提升匹配度的计算准确率。
在本申请的一种示例性实施例中,上述装置还包括:关键词拼接单元(未图示)和位置标注单元(未图示),其中:
关键词拼接单元,用于在向量计算单元1002根据各关键词的位置信息确定各关键词对应的位置向量之前,将属性结构中的关键词和会话结构中的关键词进行拼接;
位置标注单元,用于根据拼接结果的关键词排列顺序依次对关键词集合中各关键词标注位置信息,得到各关键词的位置信息。
可见,实施该可选的实施例,能够对关键词进行位置信息标注,从而有利于计算关键词的位置向量,以提升后续计算匹配度的准确率。
在本申请的一种示例性实施例中,向量计算单元1002根据向量集合生成联合语义向量,包括:
根据向量集合生成各待处理向量分别对应的矩阵组,矩阵组包括查询矩阵、键矩阵、值矩阵;
根据各待处理向量分别对应的矩阵组计算各待处理向量分别对应的自注意力向量;
根据前馈神经网络计算自注意力向量对应的特征向量;
基于自注意力算法以及前馈神经网络计算特征向量对应的联合语义向量。
可见,实施该可选的实施例,能够结合各个关键词的多类型向量将属性结构和会话信息进行联合,从而有利于精准计算匹配度,避免出现输出的会话信息与目标对象的属性结构不匹配的情况。
在本申请的一种示例性实施例中,向量计算单元1002根据属性结构和会话结构生成联合结构向量,包括:
将属性结构表示为字符串序列;
根据字符串序列以及语义关系计算联合结构向量。
可见,实施该可选的实施例,能够结合属性关键词和会话关键词计算出匹配度判定所需的向量,从而有利于提升匹配度判定的准确率。
在本申请的一种示例性实施例中,向量计算单元1002根据字符串序列以及语义关系计算联合结构向量,包括:
基于递归神经网络和字符串序列计算属性结构对应的第一参考向量;
基于递归神经网络和语义关系计算会话结构对应的第二参考向量;
将第一参考向量和第二参考向量拼接得到联合结构向量。
可见,实施该可选的实施例,能够实现对于会话结构和属性结构的向量化表示,以将结构向量作为匹配度计算的条件,提升计算匹配度的准确率。
在本申请的一种示例性实施例中,条件判定单元1003根据联合语义向量和联合结构向量确定目标对象与会话信息的匹配度,包括:
拼接联合语义向量和联合结构向量,得到综合向量;
对综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率;
通过最高概率对应的预设类别表示匹配度。
可见,实施该可选的实施例,能够结合语义和信息结构确定目标对象与会话信息之间的匹配度,可以提升计算匹配度的准确率,一定程度地避免目标对象与输出的会话信息不一致的问题,可以使得用户感知到的目标对象更为生动。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
由于本申请的示例实施例的会话信息处理装置的各个功能模块与上述会话信息处理方法的示例实施例的步骤对应,因此对于本申请装置实施例中未披露的细节,请参照本申请上述的会话信息处理方法的实施例。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种会话信息处理方法,其特征在于,包括:
当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,所述会话结构用于表征所述会话信息;
计算关键词集合对应的向量集合;其中,所述关键词集合包括所述属性结构中的关键词和所述会话结构中的关键词;
根据所述向量集合生成联合语义向量;
根据所述属性结构和所述会话结构生成联合结构向量;
根据所述联合语义向量和所述联合结构向量确定所述目标对象与所述会话信息的匹配度,若所述匹配度满足预设条件则输出所述会话信息。
2.根据权利要求1所述的方法,其特征在于,获取目标对象对应的属性结构和会话结构之前,所述方法还包括:
当检测到会话窗口中展示新增聊天消息时,确定与所述新增聊天消息对应的所述会话信息;
其中,所述会话窗口中包括所述目标对象和至少一个会话对象,所述新增聊天消息与所述会话对象相对应。
3.根据权利要求2所述的方法,其特征在于,确定与所述新增聊天消息对应的所述会话信息,包括:
根据所述新增聊天消息从预设信息库中选择所述会话信息;
或者,根据所述新增聊天消息生成所述会话信息。
4.根据权利要求1所述的方法,其特征在于,根据所述联合语义向量和所述联合结构向量确定所述目标对象与所述会话信息的匹配度,包括:
拼接所述联合语义向量和所述联合结构向量,得到综合向量;
对所述综合向量进行降维处理,并计算降维处理结果属于各预设类别的概率;
通过最高概率对应的预设类别表示所述匹配度。
5.根据权利要求1所述的方法,其特征在于,获取目标对象对应的属性结构和会话结构,包括:
读取所述目标对象对应的属性结构;
对所述会话信息进行结构化处理,得到所述会话结构。
6.根据权利要求5所述的方法,其特征在于,对所述会话信息进行结构化处理,得到所述会话结构,包括:
将所述会话信息与预设词汇集合进行比对,以确定出所述会话信息中的关键词;
根据预设词汇关系构建包含所述会话信息中的关键词的会话结构。
7.根据权利要求5所述的方法,其特征在于,对所述会话信息进行结构化处理,得到所述会话结构,包括:
根据词向量模型确定所述会话信息对应的词向量;
根据所述词向量对所述会话信息进行文本结构分析,得到所述会话信息中各语言单位之间的语义关系;
根据所述语义关系将所述会话信息表示为所述会话结构。
8.根据权利要求7所述的方法,其特征在于,根据所述属性结构和所述会话结构生成联合结构向量,包括:
将所述属性结构表示为字符串序列;
根据所述字符串序列以及所述语义关系计算所述联合结构向量。
9.根据权利要求8所述的方法,其特征在于,根据所述字符串序列以及所述语义关系计算所述联合结构向量,包括:
基于递归神经网络和所述字符串序列计算所述属性结构对应的第一参考向量;
基于所述递归神经网络和所述语义关系计算所述会话结构对应的第二参考向量;
将所述第一参考向量和所述第二参考向量拼接得到所述联合结构向量。
10.根据权利要求1所述的方法,其特征在于,计算关键词集合对应的向量集合,包括:
根据预设向量关系确定所述关键词集合中各关键词的关键词向量;
根据所述各关键词的位置信息确定所述各关键词对应的位置向量;
根据所述各关键词分别对应的类别确定所述各关键词的类别向量;
根据所述属性结构和所述会话结构确定所述各关键词的分隔向量;其中,所述属性结构中的关键词的分隔向量相同,所述会话结构中的关键词的分隔向量相同;
将对应于同一关键词的关键词向量、位置向量、类别向量以及分隔向量进行对位相加,得到所述各关键词分别对应的待处理向量;
将所述各关键词分别对应的待处理向量的集合确定为所述向量集合。
11.根据权利要求10所述的方法,其特征在于,根据所述各关键词的位置信息确定所述各关键词对应的位置向量之前,所述方法还包括:
将所述属性结构中的关键词和所述会话结构中的关键词进行拼接;
根据拼接结果的关键词排列顺序依次对所述关键词集合中各关键词标注位置信息,得到所述各关键词的位置信息。
12.根据权利要求10所述的方法,其特征在于,根据所述向量集合生成联合语义向量,包括:
根据所述向量集合生成各所述待处理向量分别对应的矩阵组,所述矩阵组包括查询矩阵、键矩阵、值矩阵;
根据各所述待处理向量分别对应的矩阵组计算各所述待处理向量分别对应的自注意力向量;
根据前馈神经网络计算所述自注意力向量对应的特征向量;
基于自注意力算法以及所述前馈神经网络计算所述特征向量对应的联合语义向量。
13.一种会话信息处理装置,其特征在于,包括:
数据获取单元,用于当检测到待输出的会话信息时,获取目标对象对应的属性结构和会话结构;其中,所述会话结构用于表征所述会话信息;
向量计算单元,用于计算关键词集合对应的向量集合;其中,所述关键词集合包括所述属性结构中的关键词和所述会话结构中的关键词;
所述向量计算单元,还用于根据所述向量集合生成联合语义向量,并根据所述属性结构和所述会话结构生成联合结构向量;
条件判定单元,用于根据所述联合语义向量和所述联合结构向量确定所述目标对象与所述会话信息的匹配度,若所述匹配度满足预设条件则输出所述会话信息。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-12任一项所述的方法。
CN202010959812.4A 2020-09-14 2020-09-14 会话信息处理方法、装置、计算机可读存储介质及设备 Active CN111930915B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010959812.4A CN111930915B (zh) 2020-09-14 2020-09-14 会话信息处理方法、装置、计算机可读存储介质及设备
PCT/CN2021/112732 WO2022052744A1 (zh) 2020-09-14 2021-08-16 会话信息处理方法、装置、计算机可读存储介质及设备
US17/974,798 US20230061778A1 (en) 2020-09-14 2022-10-27 Conversation information processing method, apparatus, computer- readable storage medium, and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010959812.4A CN111930915B (zh) 2020-09-14 2020-09-14 会话信息处理方法、装置、计算机可读存储介质及设备

Publications (2)

Publication Number Publication Date
CN111930915A true CN111930915A (zh) 2020-11-13
CN111930915B CN111930915B (zh) 2021-01-01

Family

ID=73333428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010959812.4A Active CN111930915B (zh) 2020-09-14 2020-09-14 会话信息处理方法、装置、计算机可读存储介质及设备

Country Status (3)

Country Link
US (1) US20230061778A1 (zh)
CN (1) CN111930915B (zh)
WO (1) WO2022052744A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113760568A (zh) * 2021-01-04 2021-12-07 北京沃东天骏信息技术有限公司 数据处理的方法和装置
WO2022052744A1 (zh) * 2020-09-14 2022-03-17 腾讯科技(深圳)有限公司 会话信息处理方法、装置、计算机可读存储介质及设备
JP2022180282A (ja) * 2021-05-24 2022-12-06 ネイバー コーポレーション ペルソナチャットボット制御方法及びシステム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150058014A1 (en) * 2012-05-17 2015-02-26 Postech Academy-Industry Foundation System and method for managing conversation
CN106649746A (zh) * 2016-12-26 2017-05-10 北京云知声信息技术有限公司 一种答案获取方法及装置
CN110069612A (zh) * 2019-04-28 2019-07-30 河北省讯飞人工智能研究院 一种回复生成方法及装置
CN110083693A (zh) * 2019-04-28 2019-08-02 腾讯科技(深圳)有限公司 机器人对话回复方法及装置
CN110209897A (zh) * 2018-02-12 2019-09-06 腾讯科技(深圳)有限公司 智能对话方法、装置、存储介质及设备
CN110597968A (zh) * 2019-04-28 2019-12-20 河北省讯飞人工智能研究院 一种回复选择方法及装置
CN111079985A (zh) * 2019-11-26 2020-04-28 昆明理工大学 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930915B (zh) * 2020-09-14 2021-01-01 腾讯科技(深圳)有限公司 会话信息处理方法、装置、计算机可读存储介质及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150058014A1 (en) * 2012-05-17 2015-02-26 Postech Academy-Industry Foundation System and method for managing conversation
CN106649746A (zh) * 2016-12-26 2017-05-10 北京云知声信息技术有限公司 一种答案获取方法及装置
CN110209897A (zh) * 2018-02-12 2019-09-06 腾讯科技(深圳)有限公司 智能对话方法、装置、存储介质及设备
CN110069612A (zh) * 2019-04-28 2019-07-30 河北省讯飞人工智能研究院 一种回复生成方法及装置
CN110083693A (zh) * 2019-04-28 2019-08-02 腾讯科技(深圳)有限公司 机器人对话回复方法及装置
CN110597968A (zh) * 2019-04-28 2019-12-20 河北省讯飞人工智能研究院 一种回复选择方法及装置
CN111079985A (zh) * 2019-11-26 2020-04-28 昆明理工大学 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
哈工大社会计算与信息检索研究中心: "语言技术平台(Language Technology Plantform,LTP)", 《WEB.ARCHIVE.ORG/WEB/20160110230027/HTTP://WWW.LTP-CLOUD.COM/INTRO》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022052744A1 (zh) * 2020-09-14 2022-03-17 腾讯科技(深圳)有限公司 会话信息处理方法、装置、计算机可读存储介质及设备
CN113760568A (zh) * 2021-01-04 2021-12-07 北京沃东天骏信息技术有限公司 数据处理的方法和装置
JP2022180282A (ja) * 2021-05-24 2022-12-06 ネイバー コーポレーション ペルソナチャットボット制御方法及びシステム
JP7329585B2 (ja) 2021-05-24 2023-08-18 ネイバー コーポレーション ペルソナチャットボット制御方法及びシステム

Also Published As

Publication number Publication date
US20230061778A1 (en) 2023-03-02
WO2022052744A1 (zh) 2022-03-17
CN111930915B (zh) 2021-01-01

Similar Documents

Publication Publication Date Title
US11734375B2 (en) Automatic navigation of interactive web documents
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN110019812B (zh) 一种用户自生产内容检测方法和系统
CN111930915B (zh) 会话信息处理方法、装置、计算机可读存储介质及设备
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
US10496751B2 (en) Avoiding sentiment model overfitting in a machine language model
CN111506725B (zh) 生成摘要的方法和装置
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
US20230386238A1 (en) Data processing method and apparatus, computer device, and storage medium
CN109858024B (zh) 一种基于word2vec的房源词向量训练方法及装置
US11943181B2 (en) Personality reply for digital content
CN111414561A (zh) 用于呈现信息的方法和装置
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN114330704A (zh) 语句生成模型更新方法、装置、计算机设备和存储介质
CN111079376B (zh) 数据标注方法、装置、介质以及电子设备
Chen et al. Sentiment analysis of animated film reviews using intelligent machine learning
CN111814496A (zh) 文本处理方法、装置、设备及存储介质
CN116756281A (zh) 知识问答方法、装置、设备和介质
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN111459959B (zh) 用于更新事件集合的方法和装置
Gou et al. Topic model for personalized end-to-end task-oriented dialogue
CN113806541A (zh) 情感分类的方法和情感分类模型的训练方法、装置
CN116756676A (zh) 一种摘要生成方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant