CN111460221B - 评论信息处理方法、装置及电子设备 - Google Patents
评论信息处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111460221B CN111460221B CN202010553164.2A CN202010553164A CN111460221B CN 111460221 B CN111460221 B CN 111460221B CN 202010553164 A CN202010553164 A CN 202010553164A CN 111460221 B CN111460221 B CN 111460221B
- Authority
- CN
- China
- Prior art keywords
- comment information
- information
- comment
- current
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/478—Supplemental services, e.g. displaying phone caller identification, shopping application
- H04N21/4788—Supplemental services, e.g. displaying phone caller identification, shopping application communicating with other users, e.g. chatting
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于人工智能技术领域,并涉及机器学习技术。本申请具体涉及一种评论信息处理方法、评论信息处理装置、计算机可读介质以及电子设备。该方法包括:当获取到与展示内容相关的当前评论信息时,获取展示内容的当前内容时间节点;根据当前内容时间节点获取与展示内容相关的历史评论信息;对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,评论信息包括当前评论信息以及历史评论信息;在当前评论信息所在的评论信息集合中查找与当前评论信息具有时间相关性的目标评论信息,并建立当前评论信息与目标评论信息的关联关系。该方法简化了用户在进行评论信息交互中的交互流程,提高了评论信息交互的便捷性和处理效率。
Description
技术领域
本申请涉及人工智能技术领域,并涉及机器学习技术。具体而言,本申请涉及一种评论信息处理方法、评论信息处理装置、计算机可读介质以及电子设备。
背景技术
随着计算机和网络技术的发展,用户在通过计算机设备观看网络视频、网络直播等内容的同时,可以通过发送评论信息的方式与网络主播或者其他用户进行互动。例如,在展示网络视频或者网络直播等内容的网络页面内可以提供专门的评论区以供用户发表评论,另外也可以提供弹幕功能以供用户发布与网络内容一同展示的弹幕。
网络页面中的评论信息一般会在网络内容的展示过程中随展示时间的推移而变化。例如,用户在评论区发表的评论会以滚动播放的形式动态变化,网络页面中的弹幕也会随着网络内容的播放而从页面一侧向另一侧移动。而且,当评论信息的数量越多时,其滚动速度或者移动速度也将变得越快。如果用户希望与一项评论信息进行互动,需要首先在数量众多且动态变化的评论信息中选中一项,然后再发表与之相关的回复信息。而在评论信息数量较多或者变化速度较快时,用户通常难以准确地选中想要互动的信息。因此,如何方便快捷地与评论信息进行的准确地互动是目前亟待解决的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种评论信息处理方法、评论信息处理装置、计算机可读介质以及电子设备,至少在一定程度上克服相关技术中存在的交互操作复杂、互动效率低、互动准确性差等技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种评论信息处理方法,该方法包括:
当获取到与展示内容相关的当前评论信息时,获取所述展示内容的当前内容时间节点;
根据所述当前内容时间节点获取与所述展示内容相关的历史评论信息;
对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,所述评论信息包括所述当前评论信息以及所述历史评论信息;
在所述当前评论信息所在的评论信息集合中查找与所述当前评论信息具有时间相关性的目标评论信息,并建立所述当前评论信息与所述目标评论信息的关联关系。
根据本申请实施例的一个方面,提供一种评论信息处理装置,该装置包括:
节点获取模块,被配置为当获取到与展示内容相关的当前评论信息时,获取所述展示内容的当前内容时间节点;
信息获取模块,被配置为根据所述当前内容时间节点获取与所述展示内容相关的历史评论信息;
聚类处理模块,被配置为对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,所述评论信息包括所述当前评论信息以及所述历史评论信息;
信息查找模块,被配置为在所述当前评论信息所在的评论信息集合中查找与所述当前评论信息具有时间相关性的目标评论信息,并建立所述当前评论信息与所述目标评论信息的关联关系。
在本申请的一些实施例中,基于以上技术方案,所述信息获取模块包括:
节点确定单元,被配置为根据内容时间间隔确定在所述当前内容时间节点之前的历史内容时间节点;
信息获取单元,被配置为获取处于所述当前内容时间节点与所述历史内容时间节点之间的与所述展示内容相关的历史评论信息。
在本申请的一些实施例中,基于以上技术方案,所述聚类处理模块包括:
词向量获取单元,被配置为对评论信息进行分词处理以得到所述评论信息中的评论词,并对所述评论词进行嵌入处理以得到所述评论词的词向量;
语义权重确定单元,被配置为根据所述评论词在所述评论信息中的出现频率确定各个所述评论词的语义权重;
语义向量获取单元,被配置为按照所述语义权重对所述评论词的词向量进行加权映射以得到每个评论信息的语义向量;
评论信息聚类单元,被配置为根据所述语义向量对所述评论信息进行聚类处理以得到评论信息集合。
在本申请的一些实施例中,基于以上技术方案,所述信息查找模块包括:
第一节点获取单元,被配置为在所述当前评论信息所在的评论信息集合中,获取与各个评论信息相关联的所述展示内容的评论内容时间节点;
第一信息排序单元,被配置为按照所述评论内容时间节点的先后顺序对所述各个评论信息进行排序以得到评论信息序列;
第一信息查找单元,被配置为在所述评论信息序列中查找与所述当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,基于以上技术方案,所述第一信息查找单元包括:
节点距离获取子单元,被配置为在所述评论信息序列中,获取各个评论信息与所述当前评论信息之间的评论内容时间节点的节点距离;
第一信息确定子单元,被配置为将所述节点距离小于时间阈值的评论信息确定为与所述当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,基于以上技术方案,所述第一信息查找单元包括:
邻近信息查找子单元,被配置为在所述评论信息序列中查找与所述当前评论信息时间邻近的预设数量的邻近评论信息,并将所述预设数量的邻近评论信息确定为与所述当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,基于以上技术方案,所述信息查找模块还包括:
第一页面展示单元,被配置为在所述展示内容所在的交互界面上,展示包括至少一个所述目标评论信息的目标信息选取页面;
第一信息关联单元,被配置为响应作用于所述目标信息选取页面上的信息选取操作,建立所述当前评论信息与被选取的目标评论信息的关联关系。
在本申请的一些实施例中,基于以上技术方案,所述信息查找模块还包括:
回复信息确定单元,被配置为将所述当前评论信息确定为与所述目标评论信息相关联的回复信息;
信息关联展示单元,被配置为当所述展示内容所在的交互界面上展示所述回复信息时,展示与所述回复信息相关联的目标评论信息。
在本申请的一些实施例中,基于以上技术方案,所述信息查找模块还包括:
回复信息确定单元,被配置为将所述当前评论信息确定为与所述目标评论信息相关联的回复信息;
标识信息获取单元,被配置为获取发布所述目标评论信息的评论主体的主体标识信息;
通知信息发送单元,被配置为根据所述主体标识信息向所述目标评论信息的评论主体发送与所述回复信息相关的回复通知信息。
在本申请的一些实施例中,基于以上技术方案,所述聚类处理模块包括:
特征提取单元,被配置为对所述历史评论信息进行特征提取以得到所述历史评论信息的特征向量;
句式分类单元,被配置为根据所述特征向量对所述历史评论信息进行分类处理以得到所述历史评论信息的句式类型,所述句式类型包括疑问句式和非疑问句式;
信息聚类单元,被配置为对所述当前评论信息以及句式类型为非疑问句式的历史评论信息进行聚类处理以得到至少两个评论信息集合。
在本申请的一些实施例中,基于以上技术方案,所述评论信息处理装置还包括:
疑问信息组合模块,被配置为将句式类型为疑问句式的历史评论信息组成疑问句式信息集合;
疑问信息关联模块,被配置为在所述疑问句式信息集合中查找与所述当前评论信息具有时间相关性的疑问句式评论信息,并建立所述当前评论信息与所述疑问句式评论信息的关联关系。
在本申请的一些实施例中,基于以上技术方案,所述疑问信息关联模块包括:
第二节点获取单元,被配置为在所述疑问句式信息集合中,获取与各个历史评论信息相关联的所述展示内容的评论内容时间节点;
第二信息排序单元,被配置为按照所述评论内容时间节点的先后顺序对所述疑问句式信息集合中的各个历史评论信息进行排序以得到疑问句式信息序列;
第二信息查找单元,被配置为在所述疑问句式信息序列中查找与所述当前评论信息具有时间相关性的疑问句式评论信息。
在本申请的一些实施例中,基于以上技术方案,疑问信息关联模块还包括:
第二页面展示单元,被配置为在所述展示内容所在的交互界面上,展示包括至少一个所述疑问句式评论信息的疑问信息选取页面;
第二信息关联单元,被配置为响应作用于所述疑问信息选取页面上的信息选取操作,建立所述当前评论信息与被选取的疑问句式评论信息的关联关系。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的评论信息处理方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的评论信息处理方法。
在本申请实施例提供的技术方案中,基于获取到当前评论信息时对应的当前内容时间节点可以获取历史评论信息,然后可以基于语义分析从语义相关性和时间相关性两个维度获取与当前评论信息具有语义关联关系和时间关联关系的目标评论信息,从而实现评论信息之间的交互。该方法可以自动化地挖掘评论信息之间的关联关系,简化了用户在进行评论信息交互中的交互流程,提高了评论信息交互的便捷性和处理效率,而且自动化的关系挖掘可以提高交互对象选取的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
图2示意性地示出了在一应用场景中存在语义相关性的关联弹幕。
图3示意性地示出了本申请一些实施例中提供的评论信息处理方法的方法步骤流程图。
图4示意性地示出了本申请一些实施例中对评论信息进行聚类处理的方法步骤流程图。
图5示意性地示出了本申请一些实施例中查找目标评论信息的方法步骤流程图。
图6示意性地示出了本申请一些实施例中基于类型划分对评论信息进行聚类处理的方法步骤流程图。
图7示意性地示出了本申请实施例提供的评论信息处理装置的结构框图。
图8示意性示出了适于用来实现本申请实施例的电子设备的计算机系统结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在介绍本申请技术方案之前,先对本申请技术方案中涉及的人工智能技术做出说明。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的技术方案涉及人工智能的自然语言处理、机器学习等技术,具体在以下实施例中进行说明。
图1示意性地示出了应用本申请技术方案的示例性系统架构框图。
如图1所示,系统架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑、智能电视等各种电子设备,终端设备110上可以安装有客户端,如视频客户端、浏览器客户端、即时通信客户端以及教育客户端等等。
服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。需要说明的是,在应用本申请技术方案的系统架构100中可以包括任意数量的终端设备110和服务器130,本申请不对其做限定。
根据实现需要,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,用户可以通过终端设备110上安装的客户端观看由服务器130提供的网络视频,该网络视频可以是通过网络120由服务器130向终端设备110实时传输的在线视频,也可以是保存在终端设备110本地的离线视频。
在终端设备110的交互界面上除了向用户展示网络视频的内容以外,还可以向该用户展示其他用户发送的弹幕。用户在观看网络视频时,也可以自行发送弹幕,或者对已有的弹幕进行回复以形成弹幕之间的互动。
在本申请的相关技术中,当用户想要与某一条弹幕进行回复互动时,需要在弹幕的移动过程中将其点击选中,然后进行回复。然而,由于弹幕数量过多、弹幕移动速度过快等因素,用户往往难以选中自己看到的某一条弹幕。
针对这一问题,本申请提供的技术方案可以基于人工智能技术对用户输入的弹幕进行语义分析,并自主分析该弹幕与其他弹幕之间的语义相关性,从而自动化地建立相关弹幕之间的关联关系,形成弹幕之间的互动。图2示意性地示出了在一应用场景中存在语义相关性的关联弹幕,如图2中所示,在展示网络内容的交互界面210上,以弹幕的形式展示有用户发布的大量的评论信息220。其中,第一弹幕221的弹幕内容是“可能是禁婆”,第二弹幕222的弹幕内容是“说禁婆的那个,你站住”。从弹幕内容来看,二者之间存在明显的回复关系,因此基于语义分析可以建立第一弹幕221和第二弹幕222的关联关系。例如,可以将第一弹幕221和第二弹幕222在交互界面210上进行同步显示,也可以向第一弹幕221的发送方推送提醒消息,以通知其查看回复信息。由此可见,通过自主分析评论信息之间的语义相关性以建立关联关系,可以降低评论信息的互动成本,提高互动效率、互动便捷性和互动准确性。
下面结合具体实施方式对本申请提供的评论信息处理方法、评论信息处理装置、计算机可读介质以及电子设备等技术方案做出详细说明。
图3示意性地示出了本申请一些实施例中提供的评论信息处理方法的方法步骤流程图,该评论信息处理方法可以由终端设备或服务器执行,也可以由终端设备和服务器共同执行。本申请实施例以该方法由终端设备执行为例进行说明。如图3所示,该评论信息处理方法主要可以包括以下的步骤S310~步骤S340。
步骤S310. 当获取到与展示内容相关的当前评论信息时,获取展示内容的当前内容时间节点。
步骤S320. 根据当前内容时间节点获取与展示内容相关的历史评论信息。
步骤S330. 对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,评论信息包括当前评论信息以及历史评论信息。
步骤S340. 在当前评论信息所在的评论信息集合中查找与当前评论信息具有时间相关性的目标评论信息,并建立当前评论信息与目标评论信息的关联关系。
在本申请实施例提供的评论信息处理方法中,基于获取到当前评论信息时对应的当前内容时间节点可以获取历史评论信息,然后可以基于语义分析从语义相关性和时间相关性两个维度获取与当前评论信息具有语义关联关系和时间关联关系的目标评论信息,从而实现评论信息之间的交互。该方法可以自动化地挖掘评论信息之间的关联关系,简化了用户在进行评论信息交互中的交互流程,提高了评论信息交互的便捷性和处理效率,而且自动化的关系挖掘可以提高交互对象选取的准确性。
下面分别对以上评论信息处理方法中的各个步骤进行详细说明。
在步骤S310中,当获取到与展示内容相关的当前评论信息时,获取展示内容的当前内容时间节点。
展示内容是可以在计算机设备的交互界面上进行展示的视频、音频、漫画以及网络直播等各种类型的多媒体网络内容。
获取评论信息的方式可以是通过输入设备接收用户输入的信息,例如可以通过智能手机的触控屏幕接收用户输入的文本信息,也可以通过智能手机的麦克风接收用户输入的语音信息。当用户输入语音信息时,可以通过语音识别技术将语音内容转化为文本,从而形成能够在交互界面上进行可视化展示的文本形式的评论信息。
内容时间节点是用于标识展示内容的展示进程的信息,例如展示内容为一个具有一定时间长度的网络视频,当该网络视频播放至某一时间点时,用户输入了一条评论信息,那么该时间点即为对应于该评论信息的展示内容的内容时间节点。具体而言,用户在网络视频播放至2分15秒时发送了一条弹幕,该弹幕即为当前评论信息,而2分15秒这一视频播放的时间节点即为当前内容时间节点。
在步骤S320中,根据当前内容时间节点获取与展示内容相关的历史评论信息。
历史评论信息是在当前内容时间节点之前的一定时间范围内的其他评论信息。在一些实施例中,本步骤可以先获取一内容时间间隔,并根据该内容时间间隔确定在当前内容时间节点之前的历史内容时间节点,然后再获取处于当前内容时间节点与历史内容时间节点之间的与展示内容相关的历史评论信息。
举例而言,当前内容时间节点为网络视频播放时间点2分15秒,本步骤中获取到的内容时间间隔例如可以是10秒,那么由此确定的历史内容时间节点便可以是在10秒之前的2分05秒。在网络视频播放进度的2分05秒至2分15秒之间的评论信息即可作为与展示内容相关的历史评论信息。
在步骤S330中,对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,评论信息包括当前评论信息以及历史评论信息。
语义相关性用于表示两个评论信息之间在自然语义方面的关联程度,例如可以先对各个评论信息进行向量化处理,然后利用向量距离表征评论信息之间的语义相关性。当两个评论信息的向量距离较小时,说明二者的语义相关性较高;而如果两个评论信息的向量距离较大,则说明二者的语义相关性较低。基于自然语义的相关程度,可以对当前评论信息以及历史评论信息共同进行聚类处理,形成一个或者多个评论信息集合。
图4示意性地示出了本申请一些实施例中对评论信息进行聚类处理的方法步骤流程图。如图4所示,在本申请的一些实施例中,步骤S330中的对评论信息按照语义相关性进行聚类处理以得到评论信息集合,可以包括以下的步骤S410~步骤S440。
步骤S410. 对评论信息进行分词处理以得到评论信息中的评论词,并对评论词进行嵌入处理以得到评论词的词向量。
一项评论信息可以是由一个或者多个词语组成的词语序列,本步骤对其进行分词处理后可以得到组成评论信息的评论词。在一些实施例中,对评论信息进行分词处理后得到的评论词可以是评论信息中的全量词语;在另一些实施例中,评论词也可以是对全量词语进行筛选后得到的关键词,例如可以筛选过滤掉全量词语中的“的”、“在”、“和”等停用词,以提高评论词的语义表征能力。对评论信息进行分词处理可以使用正向最大匹配法(Forward Maximum Matching Method,FMM)、逆向最大匹配法(Backward MaximumMatching Method,BMM)等基于字符串匹配的分词方法,此外也可以使用基于N元文法模型(N-Gram)、隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(Maximum EntropyModel,ME),条件随机场(Conditional Random Fields,CRF)等各种统计模型的分词方法。
针对分词得到的评论词,可以通过嵌入处理得到计算机可以直接进行计算的具有数字向量形式的词向量。在一些实施例中,可以对评论词进行独热编码(One-Hot)形成编码向量,并直接将编码向量作为该评论词的词向量。在另一实施例中,也可以先对评论词进行独热编码形成编码向量,然后再将编码向量输入预先建立的嵌入矩阵(Embedding Matrix)中,通过嵌入矩阵对编码向量进行映射处理后得到相应的词向量。利用嵌入矩阵进行映射处理可以降低词向量的维度,提高词向量的语义表征能力并减少计算成本。
步骤S420. 根据评论词在评论信息中的出现频率确定各个评论词的语义权重。
对评论信息进行分词处理后可以得到一个或者多个评论词,而不同的评论词,其自身的语义表征能力本身存在一定的差异。例如,在同一句话中,有一些词语是表示时间、地点、人物等关键信息的关键性词语,而其他一些词语则可能是表示功能、属性、连接关系等信息的非关键性词语。语义权重即用于表示各个评论词在评论信息中对于表征自然语义的重要程度。在一些实施例中,本步骤可以利用词频–逆文本频率指数(Term Frequency–Inverse Document Frequency,TF–IDF)来表示评论词的语义权重。其中,词频TF是一个评论词在一项评论信息中的出现频率,词频TF越高,表示一个评论词在相应评论信息中的重要程度越高;逆文本频率IDF是一个词语的普遍重要性的度量参数,当一个评论词在语料库中的出现频率越低时,表示该词语的语义区分能力越强,那么该评论词在相应评论信息中的重要程度也越高。因此,利用TF–IDF算法可以计算得到每个评论词的语义权重,用以表示评论词在评论信息中的重要程度。
步骤S430. 按照语义权重对评论词的词向量进行加权映射以得到每个评论信息的语义向量。
由步骤S420可以得到各个评论词的语义权重,然后本步骤基于该语义权重可以对各个评论词的词向量进行加权映射,从而得到每个评论信息的语义向量。
步骤S440. 根据语义向量对评论信息进行聚类处理以得到评论信息集合。
基于语义向量之间的向量相似度可以对评论信息进行聚类处理,例如可以通过余弦距离、欧式距离、曼哈顿距离等各种向量距离表征参数来计算任意两个语义向量之间的向量相似度,并将向量相似度相近的两个评论信息归类至同一个评论信息集合中。在一些实施中,可以利用K均值聚类算法(k-means clustering algorithm)来对评论信息进行聚类处理。K均值聚类算法是一种迭代求解的聚类分析算法,其聚类过程是:随机选取K个评论信息作为初始的聚类中心,然后计算每个评论信息与各个聚类中心之间的距离,把每个评论信息分配给距离它最近的聚类中心。聚类中心以及分配给它们的评论信息就代表一个聚类集合。每分配一个评论信息,聚类集合的聚类中心会根据聚类中现有的评论信息被重新计算。这个过程将不断重复直到满足某个终止条件,最终得到的各个聚类集合即作为评论信息集合。终止条件例如可以是没有(或最小数目)评论信息被重新分配给不同的聚类信息集合、没有(或最小数目)聚类中心再发生变化或者误差平方和局部最小等等。
通过执行步骤S410~步骤S440,可以实现对当前评论信息和历史评论信息在语义相关性维度上进行分类,形成多个评论信息集合。每个评论信息集合中的评论信息均具有相对较高的语义相关性。
在步骤S340中,在当前评论信息所在的评论信息集合中查找与当前评论信息具有时间相关性的目标评论信息,并建立当前评论信息与目标评论信息的关联关系。
由步骤S330完成对评论信息的聚类处理后,当前评论信息将被归类至某一个评论信息集合中,该评论信息集合中的各个评论信息可以认为是与当前评论信息语义相关程度较高的信息,在此基础上可以进一步从中查找与当前评论信息时间相关程度较高的信息。
图5示意性地示出了本申请一些实施例中查找目标评论信息的方法步骤流程图。如图5所示,在以上实施例的基础上,步骤S340中的在当前评论信息所在的评论信息集合中查找与当前评论信息具有时间相关性的目标评论信息,可以包括以下步骤S510~步骤S530。
步骤S510. 在当前评论信息所在的评论信息集合中,获取与各个评论信息相关联的展示内容的评论内容时间节点;
步骤S520. 按照评论内容时间节点的先后顺序对各个评论信息进行排序以得到评论信息序列;
步骤S530. 在评论信息序列中查找与当前评论信息具有时间相关性的目标评论信息。
在用户观通过手机等终端设备观看网络视频等展示内容的应用场景中,当用户在手机的交互界面上看到一条弹幕后,一般会在几秒钟的时间内编辑一条新的弹幕,并发送该弹幕以对前一弹幕进行回复。由此可见,两条弹幕对应的视频时间节点应当是比较接近的。换言之,用户发送的当前评论信息以及用户想要进行交互的目标评论信息之间具有一定的时间相关性。
通过执行步骤S510~步骤S530,按照评论内容时间节点对各个评论信息进行排序,并在排序后得到的评论信息序列中可以查找得到与当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,可以基于预设的时间阈值查找目标评论信息。具体而言,可以在评论信息序列中,获取各个评论信息与当前评论信息之间的评论内容时间节点的节点距离,然后将节点距离小于时间阈值的评论信息确定为与当前评论信息具有时间相关性的目标评论信息。该时间阈值可以与当前评论信息中包含的字符数量相关,例如当前评论信息中包含的字符数量较多时,时间阈值可以设置为相对较大的阈值;而如果当前评论信息中包含的字符数量较少,那么该时间阈值可以设置为相对较小的阈值。基于当前评论信息调节时间阈值的大小,可以有效控制查找得到的目标评论信息的数量,在保证涵盖用户想要进行回复互动的评论信息的同时,避免引入过多的干扰项。
在本申请的另一些实施例中,可以基于预设数量查找目标评论信息。具体而言,可以在评论信息序列中查找与当前评论信息时间邻近的预设数量的邻近评论信息,并将预设数量的邻近评论信息确定为与当前评论信息具有时间相关性的目标评论信息。
由以上实施例可知,获取到的目标评论信息的数量可以是一个或者多个,当目标评论信息的数量为一个时,可以直接建立当前评论信息与该目标评论信息的关联关系。而当目标评论信息的数量为多个时,可以分别建立当前评论信息与每个目标评论信息之间的关联关系,或者也可以从多个目标评论信息中选取一个与当前评论信息建立关联关系。
举例而言,本申请实施例可以在展示内容所在的交互界面上,展示包括至少一个目标评论信息的目标信息选取页面;响应作用于目标信息选取页面上的信息选取操作,建立当前评论信息与被选取的目标评论信息的关联关系。例如,当用户在手机的交互界面上输入当前评论信息时,可以在交互界面上以弹窗或者浮窗的形式显示一个目标信息选取页面,该目标信息选取页面中可以罗列出若干个目标评论信息,以供用户选择。当用户选中其中的某一个目标评论信息时,便可以将被选中的目标评论信息与当前评论信息建立关联关系。该关联关系可以体现为两个评论信息之间的回复关系,同时还可以体现为两个评论信息的共同展示关系。
在本申请的一些实施例中,可以将当前评论信息确定为与目标评论信息相关联的回复信息,当展示内容所在的交互界面上展示回复信息时,可以同步展示与该回复信息相关联的目标评论信息。通过对目标评论信息与回复信息在交互界面上进行同步展示,可以从视觉效果上体现两个评论信息之间的交互关系,增加评论信息之间的互动性和逻辑性。
在本申请的另一些实施例中,在将当前评论信息确定为与目标评论信息相关联的回复信息之后,可以获取发布目标评论信息的评论主体的主体标识信息,然后根据主体标识信息向目标评论信息的评论主体发送与回复信息相关的回复通知信息。通过向发布目标评论信息的评论主体发送回复通知信息,可以提醒该评论主体查看回复内容,实现当前用户与回复对象之间的互动,在评论信息中融入社交属性。
鉴于弹幕的互动频率较高,使用传统的自然语言处理策略,例如直接对海量的弹幕进行分类并进行相似性分析通常需要极高的计算成本。这种方式将会带来巨大的计算负荷,使功能的成本偏高,甚至不可用。本申请实施例针对弹幕频繁互动的特点,可以基于语义相关性和时间相关性两个维度对弹幕之间的关联性进行挖掘。除此之外,本申请实施例还可以对弹幕类型进行划分,针对不同类型弹幕可以采用不同的处理方式。
图6示意性地示出了本申请一些实施例中基于类型划分对评论信息进行聚类处理的方法步骤流程图。如图6所示,在以上各实施例的基础上,步骤S330中的对评论信息按照语义相关性进行聚类处理以得到评论信息集合,可以包括以下步骤S610~步骤S630。
步骤S610. 对历史评论信息进行特征提取以得到历史评论信息的特征向量;
步骤S620. 根据特征向量对历史评论信息进行分类处理以得到历史评论信息的句式类型,句式类型包括疑问句式和非疑问句式;
步骤S630. 对当前评论信息以及句式类型为非疑问句式的历史评论信息进行聚类处理以得到评论信息集合。
本申请实施例可以预先训练支持向量机等分类模型,在对每个历史评论信息进行特征提取得到特征向量后,可以将特征向量输入至训练好的分类模型中,利用分类模型对历史评论信息进行分类处理后便可以得到其句式类型,具体可以包括疑问句式和非疑问句式两种类型。
针对非疑问句式的历史评论信息,可以利用以上各实施例中提供的技术方案对其进行聚类处理以得到一个或者多个评论信息集合,并可以基于后续的其他步骤从中查找与当前评论信息具有相关性的目标评论信息。
针对疑问句式,由于其具有明显的问答形式特征,本申请实施例可以对其与当前评论信息的相关性进行单独判断,从而提高评论信息之间关联关系的挖掘效率。在本申请的一些实施例中,可以将句式类型为疑问句式的历史评论信息组成疑问句式信息集合;在疑问句式信息集合中查找与当前评论信息具有时间相关性的疑问句式评论信息,并建立当前评论信息与疑问句式评论信息的关联关系。
在本申请的一些实施例中,在疑问句式信息集合中查找与当前评论信息具有时间相关性的疑问句式评论信息的方法,可以包括以下步骤:
在疑问句式信息集合中,获取与各个历史评论信息相关联的展示内容的评论内容时间节点;
按照评论内容时间节点的先后顺序对疑问句式信息集合中的各个历史评论信息进行排序以得到疑问句式信息序列;
在疑问句式信息序列中查找与当前评论信息具有时间相关性的疑问句式评论信息。
该查找方法与以上实施例中图5所示的查找方法相似,此处不再赘述。
在本申请的一些实施例中,建立当前评论信息与疑问句式评论信息的关联关系的方法,可以包括以下步骤:
在展示内容所在的交互界面上,展示包括至少一个疑问句式评论信息的疑问信息选取页面;
响应作用于疑问信息选取页面上的信息选取操作,建立当前评论信息与被选取的疑问句式评论信息的关联关系。
该关联关系的建立方法与上述实施例中建立当前评论信息与目标评论信息的关联关系的方法相似,此处亦不再赘述。
本申请以上各实施例提供的技术方案可以应用于在网络视频播放或者网络直播等应用场景中,通过AI识别的方式智能关联回复弹幕,降低交互难度,提升弹幕的趣味性以及互动率。
在该应用场景,本申请可以设计便于检索弹幕之间关系的弹幕数据结构,该数据结构如下表所示:
字段 | 类型 | 作用 |
content | string | 存储弹幕内容 |
video_timestamp | int | 存储弹幕所对应的视频时间 |
comment_timestamp | string | 弹幕发送时间(统一时区) |
father_comment | array[Comment] | 关联弹幕 |
user | string | 用户ID |
基于上表所示的数据结构,可以基于不同字段存储不同的弹幕信息,如弹幕内容、弹幕对应的视频时间、弹幕发送时间、关联弹幕以及用户ID等等。
对于疑问句的辨别,实际上是典型的二分类问题,本申请实施例可以使用经典的词袋模型进行疑问句判别,其实施过程如下:
对于标注完成的训练样本,可以对其进行分词处理,然后使用TF-IDF算法对其进行特征抽取。在构造对应的训练矩阵后,可以训练支持向量机二分类模型,用以输出弹幕的句式为疑问句或者非疑问句。
由于弹幕的字符数量相对较少,且大多句式较为简单,使用TF-IDF算法结合SVM模型,有利于后台进行快速部署,减少计算设备的使用成本。
弹幕大多数是陈述式的短句,因此其语义是非常清晰的,且对于机器而言,是较易理解的。因此,对于非疑问句,可以基于K-means聚类和时间相关性查找的方式建立弹幕之间的回复关系。
由于疑问句需要进行上下文分析,其计算量大,且弹幕中的疑问句数量相对较少。因此本申请采用直接交互的方式对其进行关联处理,例如当用户在进行弹幕回复时,可以将时间邻近的疑问句进行弹出,并提示用户进行选择回复。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的评论信息处理方法。图7示意性地示出了本申请实施例提供的评论信息处理装置的结构框图。如图7所示,评论信息处理装置700主要可以包括:
节点获取模块710,被配置为当获取到与展示内容相关的当前评论信息时,获取展示内容的当前内容时间节点;
信息获取模块720,被配置为根据当前内容时间节点获取与展示内容相关的历史评论信息;
聚类处理模块730,被配置为对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,评论信息包括当前评论信息以及历史评论信息;
信息查找模块740,被配置为在当前评论信息所在的评论信息集合中查找与当前评论信息具有时间相关性的目标评论信息,并建立当前评论信息与目标评论信息的关联关系。
在本申请的一些实施例中,基于以上各实施例,信息获取模块包括:
节点确定单元,被配置为根据内容时间间隔确定在当前内容时间节点之前的历史内容时间节点;
信息获取单元,被配置为获取处于当前内容时间节点与历史内容时间节点之间的与展示内容相关的历史评论信息。
在本申请的一些实施例中,基于以上各实施例,聚类处理模块包括:
词向量获取单元,被配置为对评论信息进行分词处理以得到评论信息中的评论词,并对评论词进行嵌入处理以得到评论词的词向量;
语义权重确定单元,被配置为根据评论词在评论信息中的出现频率确定各个评论词的语义权重;
语义向量获取单元,被配置为按照语义权重对评论词的词向量进行加权映射以得到每个评论信息的语义向量;
评论信息聚类单元,被配置为根据语义向量对评论信息进行聚类处理以得到评论信息集合。
在本申请的一些实施例中,基于以上各实施例,信息查找模块包括:
第一节点获取单元,被配置为在当前评论信息所在的评论信息集合中,获取与各个评论信息相关联的展示内容的评论内容时间节点;
第一信息排序单元,被配置为按照评论内容时间节点的先后顺序对各个评论信息进行排序以得到评论信息序列;
第一信息查找单元,被配置为在评论信息序列中查找与当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,基于以上各实施例,第一信息查找单元包括:
节点距离获取子单元,被配置为在评论信息序列中,获取各个评论信息与当前评论信息之间的评论内容时间节点的节点距离;
第一信息确定子单元,被配置为将节点距离小于时间阈值的评论信息确定为与当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,基于以上各实施例,第一信息查找单元包括:
邻近信息查找子单元,被配置为在评论信息序列中查找与当前评论信息时间邻近的预设数量的邻近评论信息,并将预设数量的邻近评论信息确定为与当前评论信息具有时间相关性的目标评论信息。
在本申请的一些实施例中,基于以上各实施例,信息查找模块还包括:
第一页面展示单元,被配置为在展示内容所在的交互界面上,展示包括至少一个目标评论信息的目标信息选取页面;
第一信息关联单元,被配置为响应作用于目标信息选取页面上的信息选取操作,建立当前评论信息与被选取的目标评论信息的关联关系。
在本申请的一些实施例中,基于以上各实施例,信息查找模块还包括:
回复信息确定单元,被配置为将当前评论信息确定为与目标评论信息相关联的回复信息;
信息关联展示单元,被配置为当展示内容所在的交互界面上展示回复信息时,展示与回复信息相关联的目标评论信息。
在本申请的一些实施例中,基于以上各实施例,信息查找模块还包括:
回复信息确定单元,被配置为将当前评论信息确定为与目标评论信息相关联的回复信息;
标识信息获取单元,被配置为获取发布目标评论信息的评论主体的主体标识信息;
通知信息发送单元,被配置为根据主体标识信息向目标评论信息的评论主体发送与回复信息相关的回复通知信息。
在本申请的一些实施例中,基于以上各实施例,聚类处理模块包括:
特征提取单元,被配置为对历史评论信息进行特征提取以得到历史评论信息的特征向量;
句式分类单元,被配置为根据特征向量对历史评论信息进行分类处理以得到历史评论信息的句式类型,句式类型包括疑问句式和非疑问句式;
信息聚类单元,被配置为对当前评论信息以及句式类型为非疑问句式的历史评论信息进行聚类处理以得到评论信息集合。
在本申请的一些实施例中,基于以上各实施例,评论信息处理装置还包括:
疑问信息组合模块,被配置为将句式类型为疑问句式的历史评论信息组成疑问句式信息集合;
疑问信息关联模块,被配置为在疑问句式信息集合中查找与当前评论信息具有时间相关性的疑问句式评论信息,并建立当前评论信息与疑问句式评论信息的关联关系。
在本申请的一些实施例中,基于以上各实施例,疑问信息关联模块包括:
第二节点获取单元,被配置为在疑问句式信息集合中,获取与各个历史评论信息相关联的展示内容的评论内容时间节点;
第二信息排序单元,被配置为按照评论内容时间节点的先后顺序对疑问句式信息集合中的各个历史评论信息进行排序以得到疑问句式信息序列;
第二信息查找单元,被配置为在疑问句式信息序列中查找与当前评论信息具有时间相关性的疑问句式评论信息。
在本申请的一些实施例中,基于以上各实施例,疑问信息关联模块还包括:
第二页面展示单元,被配置为在展示内容所在的交互界面上,展示包括至少一个疑问句式评论信息的疑问信息选取页面;
第二信息关联单元,被配置为响应作用于疑问信息选取页面上的信息选取操作,建立当前评论信息与被选取的疑问句式评论信息的关联关系。
本申请各实施例中提供的评论信息处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
应用本申请各实施例中提供的评论信息处理装置可以自动化地对与展示内容相关的评论信息进行语义分析和聚类处理,并根据聚类结果从语义相关性和时间相关性两个维度获取与当前评论信息具有语义关联关系和时间关联关系的目标评论信息,从而实现评论信息之间的交互。该评论信息处理装置可以自动化地挖掘评论信息之间的关联关系,简化了用户在进行评论信息交互中的交互流程,提高了评论信息交互的便捷性和处理效率,而且自动化的关系挖掘可以提高交互对象选取的准确性。通过建立评论信息相互之间的关联关系还可以在终端设备上对相关的评论信息进行可视化地关联展示,同时也可以向与评论信息对应的用户发送提醒消息,提高用户与评论信息之间的互动性。
图8示意性地示出了用于实现本申请实施例的电子设备的计算机系统结构框图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。实现本申请技术方案的电子设备可以是终端设备或者服务器,本申请实施例以终端设备作为示例对该电子设备进行说明。
如图8所示,计算机系统800包括中央处理单元(Central Processing Unit,CPU)801,其可以根据存储在只读存储器(Read-Only Memory,ROM)802中的程序或者从存储部分808加载到随机访问存储器(Random Access Memory,RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(Input /Output,I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (28)
1.一种评论信息处理方法,其特征在于,包括:
当获取到与展示内容相关的当前评论信息时,获取所述展示内容的当前内容时间节点;
根据所述当前内容时间节点获取与所述展示内容相关的历史评论信息;
对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,所述评论信息包括所述当前评论信息以及所述历史评论信息;
在所述当前评论信息所在的评论信息集合中查找与所述当前评论信息具有时间相关性的目标评论信息,并建立所述当前评论信息与所述目标评论信息的回复关系。
2.根据权利要求1所述的评论信息处理方法,其特征在于,所述根据所述当前内容时间节点获取与所述展示内容相关的历史评论信息,包括:
根据内容时间间隔确定在所述当前内容时间节点之前的历史内容时间节点;
获取处于所述当前内容时间节点与所述历史内容时间节点之间的与所述展示内容相关的历史评论信息。
3.根据权利要求1所述的评论信息处理方法,其特征在于,所述对评论信息按照语义相关性进行聚类处理以得到评论信息集合,包括:
对评论信息进行分词处理以得到所述评论信息中的评论词,并对所述评论词进行嵌入处理以得到所述评论词的词向量;
根据所述评论词在所述评论信息中的出现频率确定各个所述评论词的语义权重;
按照所述语义权重对所述评论词的词向量进行加权映射以得到每个评论信息的语义向量;
根据所述语义向量对所述评论信息进行聚类处理以得到评论信息集合。
4.根据权利要求1所述的评论信息处理方法,其特征在于,所述在所述当前评论信息所在的评论信息集合中查找与所述当前评论信息具有时间相关性的目标评论信息,包括:
在所述当前评论信息所在的评论信息集合中,获取与各个评论信息相关联的所述展示内容的评论内容时间节点;
按照所述评论内容时间节点的先后顺序对所述各个评论信息进行排序以得到评论信息序列;
在所述评论信息序列中查找与所述当前评论信息具有时间相关性的目标评论信息。
5.根据权利要求4所述的评论信息处理方法,其特征在于,所述在所述评论信息序列中查找与所述当前评论信息具有时间相关性的目标评论信息,包括:
在所述评论信息序列中,获取各个评论信息与所述当前评论信息之间的评论内容时间节点的节点距离;
将所述节点距离小于时间阈值的评论信息确定为与所述当前评论信息具有时间相关性的目标评论信息。
6.根据权利要求4所述的评论信息处理方法,其特征在于,所述在所述评论信息序列中查找与所述当前评论信息具有时间相关性的目标评论信息,包括:
在所述评论信息序列中查找与所述当前评论信息时间邻近的预设数量的邻近评论信息,并将所述预设数量的邻近评论信息确定为与所述当前评论信息具有时间相关性的目标评论信息。
7.根据权利要求1所述的评论信息处理方法,其特征在于,所述建立所述当前评论信息与所述目标评论信息的回复关系,包括:
在所述展示内容所在的交互界面上,展示包括至少一个所述目标评论信息的目标信息选取页面;
响应作用于所述目标信息选取页面上的信息选取操作,建立所述当前评论信息与被选取的目标评论信息的回复关系。
8.根据权利要求1所述的评论信息处理方法,其特征在于,所述建立所述当前评论信息与所述目标评论信息的回复关系,包括:
将所述当前评论信息确定为与所述目标评论信息相关联的回复信息;
当所述展示内容所在的交互界面上展示所述回复信息时,展示与所述回复信息相关联的目标评论信息。
9.根据权利要求1所述的评论信息处理方法,其特征在于,所述建立所述当前评论信息与所述目标评论信息的回复关系,包括:
将所述当前评论信息确定为与所述目标评论信息相关联的回复信息;
获取发布所述目标评论信息的评论主体的主体标识信息;
根据所述主体标识信息向所述目标评论信息的评论主体发送与所述回复信息相关的回复通知信息。
10.根据权利要求1至9中任意一项所述的评论信息处理方法,其特征在于,所述对评论信息按照语义相关性进行聚类处理以得到评论信息集合,包括:
对所述历史评论信息进行特征提取以得到所述历史评论信息的特征向量;
根据所述特征向量对所述历史评论信息进行分类处理以得到所述历史评论信息的句式类型,所述句式类型包括疑问句式和非疑问句式;
对所述当前评论信息以及句式类型为非疑问句式的历史评论信息进行聚类处理以得到评论信息集合。
11.根据权利要求10所述的评论信息处理方法,其特征在于,在根据所述特征向量对所述历史评论信息进行分类处理以得到所述历史评论信息的句式类型之后,所述方法还包括:
将句式类型为疑问句式的历史评论信息组成疑问句式信息集合;
在所述疑问句式信息集合中查找与所述当前评论信息具有时间相关性的疑问句式评论信息,并建立所述当前评论信息与所述疑问句式评论信息的关联关系。
12.根据权利要求11所述的评论信息处理方法,其特征在于,所述在所述疑问句式信息集合中查找与所述当前评论信息具有时间相关性的疑问句式评论信息,包括:
在所述疑问句式信息集合中,获取与各个历史评论信息相关联的所述展示内容的评论内容时间节点;
按照所述评论内容时间节点的先后顺序对所述疑问句式信息集合中的各个历史评论信息进行排序以得到疑问句式信息序列;
在所述疑问句式信息序列中查找与所述当前评论信息具有时间相关性的疑问句式评论信息。
13.根据权利要求11所述的评论信息处理方法,其特征在于,建立所述当前评论信息与所述疑问句式评论信息的关联关系,包括:
在所述展示内容所在的交互界面上,展示包括至少一个所述疑问句式评论信息的疑问信息选取页面;
响应作用于所述疑问信息选取页面上的信息选取操作,建立所述当前评论信息与被选取的疑问句式评论信息的关联关系。
14.一种评论信息处理装置,其特征在于,包括:
节点获取模块,被配置为当获取到与展示内容相关的当前评论信息时,获取所述展示内容的当前内容时间节点;
信息获取模块,被配置为根据所述当前内容时间节点获取与所述展示内容相关的历史评论信息;
聚类处理模块,被配置为对评论信息按照语义相关性进行聚类处理以得到评论信息集合,其中,所述评论信息包括所述当前评论信息以及所述历史评论信息;
信息查找模块,被配置为在所述当前评论信息所在的评论信息集合中查找与所述当前评论信息具有时间相关性的目标评论信息,并建立所述当前评论信息与所述目标评论信息的回复关系。
15.根据权利要求14所述的评论信息处理装置,其特征在于,所述信息获取模块包括:
节点确定单元,被配置为根据内容时间间隔确定在所述当前内容时间节点之前的历史内容时间节点;
信息获取单元,被配置为获取处于所述当前内容时间节点与所述历史内容时间节点之间的与所述展示内容相关的历史评论信息。
16.根据权利要求14所述的评论信息处理装置,其特征在于,所述聚类处理模块包括:
词向量获取单元,被配置为对评论信息进行分词处理以得到所述评论信息中的评论词,并对所述评论词进行嵌入处理以得到所述评论词的词向量;
语义权重确定单元,被配置为根据所述评论词在所述评论信息中的出现频率确定各个所述评论词的语义权重;
语义向量获取单元,被配置为按照所述语义权重对所述评论词的词向量进行加权映射以得到每个评论信息的语义向量;
评论信息聚类单元,被配置为根据所述语义向量对所述评论信息进行聚类处理以得到评论信息集合。
17.根据权利要求14所述的评论信息处理装置,其特征在于,所述信息查找模块包括:
第一节点获取单元,被配置为在所述当前评论信息所在的评论信息集合中,获取与各个评论信息相关联的所述展示内容的评论内容时间节点;
第一信息排序单元,被配置为按照所述评论内容时间节点的先后顺序对所述各个评论信息进行排序以得到评论信息序列;
第一信息查找单元,被配置为在所述评论信息序列中查找与所述当前评论信息具有时间相关性的目标评论信息。
18.根据权利要求17所述的评论信息处理装置,其特征在于,所述第一信息查找单元包括:
节点距离获取子单元,被配置为在所述评论信息序列中,获取各个评论信息与所述当前评论信息之间的评论内容时间节点的节点距离;
第一信息确定子单元,被配置为将所述节点距离小于时间阈值的评论信息确定为与所述当前评论信息具有时间相关性的目标评论信息。
19.根据权利要求17所述的评论信息处理装置,其特征在于,所述第一信息查找单元包括:
邻近信息查找子单元,被配置为在所述评论信息序列中查找与所述当前评论信息时间邻近的预设数量的邻近评论信息,并将所述预设数量的邻近评论信息确定为与所述当前评论信息具有时间相关性的目标评论信息。
20.根据权利要求14所述的评论信息处理装置,其特征在于,所述信息查找模块还包括:
第一页面展示单元,被配置为在所述展示内容所在的交互界面上,展示包括至少一个所述目标评论信息的目标信息选取页面;
第一信息关联单元,被配置为响应作用于所述目标信息选取页面上的信息选取操作,建立所述当前评论信息与被选取的目标评论信息的回复关系。
21.根据权利要求14所述的评论信息处理装置,其特征在于,所述信息查找模块还包括:
回复信息确定单元,被配置为将所述当前评论信息确定为与所述目标评论信息相关联的回复信息;
信息关联展示单元,被配置为当所述展示内容所在的交互界面上展示所述回复信息时,展示与所述回复信息相关联的目标评论信息。
22.根据权利要求14所述的评论信息处理装置,其特征在于,所述信息查找模块还包括:
回复信息确定单元,被配置为将所述当前评论信息确定为与所述目标评论信息相关联的回复信息;
标识信息获取单元,被配置为获取发布所述目标评论信息的评论主体的主体标识信息;
通知信息发送单元,被配置为根据所述主体标识信息向所述目标评论信息的评论主体发送与所述回复信息相关的回复通知信息。
23.根据权利要求14至22中任意一项所述的评论信息处理装置,其特征在于,所述聚类处理模块包括:
特征提取单元,被配置为对所述历史评论信息进行特征提取以得到所述历史评论信息的特征向量;
句式分类单元,被配置为根据所述特征向量对所述历史评论信息进行分类处理以得到所述历史评论信息的句式类型,所述句式类型包括疑问句式和非疑问句式;
信息聚类单元,被配置为对所述当前评论信息以及句式类型为非疑问句式的历史评论信息进行聚类处理以得到至少两个评论信息集合。
24.根据权利要求23所述的评论信息处理装置,其特征在于,所述评论信息处理装置还包括:
疑问信息组合模块,被配置为将句式类型为疑问句式的历史评论信息组成疑问句式信息集合;
疑问信息关联模块,被配置为在所述疑问句式信息集合中查找与所述当前评论信息具有时间相关性的疑问句式评论信息,并建立所述当前评论信息与所述疑问句式评论信息的关联关系。
25.根据权利要求24所述的评论信息处理装置,其特征在于,所述疑问信息关联模块包括:
第二节点获取单元,被配置为在所述疑问句式信息集合中,获取与各个历史评论信息相关联的所述展示内容的评论内容时间节点;
第二信息排序单元,被配置为按照所述评论内容时间节点的先后顺序对所述疑问句式信息集合中的各个历史评论信息进行排序以得到疑问句式信息序列;
第二信息查找单元,被配置为在所述疑问句式信息序列中查找与所述当前评论信息具有时间相关性的疑问句式评论信息。
26.根据权利要求24所述的评论信息处理装置,其特征在于,疑问信息关联模块还包括:
第二页面展示单元,被配置为在所述展示内容所在的交互界面上,展示包括至少一个所述疑问句式评论信息的疑问信息选取页面;
第二信息关联单元,被配置为响应作用于所述疑问信息选取页面上的信息选取操作,建立所述当前评论信息与被选取的疑问句式评论信息的关联关系。
27.一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1至13中任意一项所述的评论信息处理方法。
28.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至13中任意一项所述的评论信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553164.2A CN111460221B (zh) | 2020-06-17 | 2020-06-17 | 评论信息处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010553164.2A CN111460221B (zh) | 2020-06-17 | 2020-06-17 | 评论信息处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460221A CN111460221A (zh) | 2020-07-28 |
CN111460221B true CN111460221B (zh) | 2020-09-25 |
Family
ID=71685539
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010553164.2A Active CN111460221B (zh) | 2020-06-17 | 2020-06-17 | 评论信息处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460221B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930927B (zh) * | 2020-08-21 | 2024-03-12 | 腾讯科技(深圳)有限公司 | 评价信息展示方法、装置、电子设备及可读存储介质 |
CN112528136A (zh) * | 2020-11-30 | 2021-03-19 | 腾讯科技(深圳)有限公司 | 一种观点标签的生成方法、装置、电子设备和存储介质 |
CN113301376B (zh) * | 2021-05-24 | 2023-04-07 | 成都威爱新经济技术研究院有限公司 | 一种基于虚拟现实技术的直播交互方法及系统 |
CN113723087B (zh) * | 2021-09-15 | 2023-02-28 | 北京字跳网络技术有限公司 | 信息处理方法、装置、设备、可读存储介质及产品 |
CN116501832A (zh) * | 2022-01-20 | 2023-07-28 | 北京有竹居网络技术有限公司 | 评论处理方法及设备 |
CN115379284A (zh) * | 2022-07-15 | 2022-11-22 | 广州力天文化创意产业集团有限公司 | 一种影片播放方法及装置 |
CN115757793B (zh) * | 2022-11-29 | 2023-09-05 | 海南达润丰企业管理合伙企业(有限合伙) | 基于人工智能的话题分析预警方法、系统及云平台 |
CN115544237A (zh) * | 2022-12-02 | 2022-12-30 | 北京红棉小冰科技有限公司 | 基于直播场景的对话数据集构建方法及装置 |
CN116506680B (zh) * | 2023-06-26 | 2023-09-19 | 北京万物镜像数据服务有限公司 | 一种虚拟空间的评论数据处理方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106303730A (zh) * | 2016-07-28 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 一种用于提供组合弹幕信息的方法与设备 |
CN106407484A (zh) * | 2016-12-09 | 2017-02-15 | 上海交通大学 | 一种基于弹幕语义关联的视频标签提取方法 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN110166847A (zh) * | 2019-06-27 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 弹幕处理方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101193038B (zh) * | 2007-06-08 | 2010-12-22 | 腾讯科技(深圳)有限公司 | 回复主题帖、查看回复帖及交互主题帖的方法及系统 |
US9973821B2 (en) * | 2009-09-03 | 2018-05-15 | Fox Broadcasting Company | Method and apparatus for concurrent broadcast of media program and social networking derived information exchange |
CN105187933B (zh) * | 2015-08-06 | 2019-03-12 | 北京奇艺世纪科技有限公司 | 一种数据处理方法、装置及系统 |
-
2020
- 2020-06-17 CN CN202010553164.2A patent/CN111460221B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106303730A (zh) * | 2016-07-28 | 2017-01-04 | 百度在线网络技术(北京)有限公司 | 一种用于提供组合弹幕信息的方法与设备 |
CN106776713A (zh) * | 2016-11-03 | 2017-05-31 | 中山大学 | 一种基于词向量语义分析的海量短文本聚类方法 |
CN106407484A (zh) * | 2016-12-09 | 2017-02-15 | 上海交通大学 | 一种基于弹幕语义关联的视频标签提取方法 |
CN110166847A (zh) * | 2019-06-27 | 2019-08-23 | 北京奇艺世纪科技有限公司 | 弹幕处理方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111460221A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460221B (zh) | 评论信息处理方法、装置及电子设备 | |
WO2020228514A1 (zh) | 内容推荐方法、装置、设备及存储介质 | |
CN110162593B (zh) | 一种搜索结果处理、相似度模型训练方法及装置 | |
CN111708950B (zh) | 内容推荐方法、装置及电子设备 | |
Nie et al. | Beyond text QA: multimedia answer generation by harvesting web information | |
Zhang et al. | Multimodal marketing intent analysis for effective targeted advertising | |
WO2022033199A1 (zh) | 一种获得用户画像的方法及相关装置 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112307351A (zh) | 用户行为的模型训练、推荐方法、装置和设备 | |
CN106294500B (zh) | 内容项目的推送方法、装置及系统 | |
CN110162594B (zh) | 文本数据的观点生成方法、装置及电子设备 | |
CN112330455B (zh) | 用于推送信息的方法、装置、设备以及存储介质 | |
Liu et al. | Learning to predict population-level label distributions | |
Huang et al. | A multi-source integration framework for user occupation inference in social media systems | |
Ji et al. | Survey of visual sentiment prediction for social media analysis | |
CN114579833B (zh) | 一种基于主题挖掘和情感分析的微博舆情可视分析方法 | |
Riquelme et al. | Explaining VQA predictions using visual grounding and a knowledge base | |
CN112749330A (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
Qi et al. | Emotion knowledge driven video highlight detection | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN115878891A (zh) | 直播内容生成方法、装置、设备以及计算机存储介质 | |
CN111125387B (zh) | 多媒体列表生成、命名方法、装置、电子设备和存储介质 | |
CN114022822A (zh) | 视频配乐的获取方法、装置、电子设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40025795 Country of ref document: HK |