CN116743692A - 一种历史消息折叠方法和系统 - Google Patents
一种历史消息折叠方法和系统 Download PDFInfo
- Publication number
- CN116743692A CN116743692A CN202311033036.5A CN202311033036A CN116743692A CN 116743692 A CN116743692 A CN 116743692A CN 202311033036 A CN202311033036 A CN 202311033036A CN 116743692 A CN116743692 A CN 116743692A
- Authority
- CN
- China
- Prior art keywords
- units
- history
- historical
- unit
- history dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000003058 natural language processing Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000013527 convolutional neural network Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 17
- 230000008569 process Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000002452 interceptive effect Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000000306 recurrent effect Effects 0.000 description 5
- 230000000670 limiting effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 230000006403 short-term memory Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/216—Handling conversation history, e.g. grouping of messages in sessions or threads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Signal Processing (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种历史消息折叠方法和系统。其中,系统基于不同历史对话单元之间的语义相似度和不同历史对话单元的时间信息,确定每个历史对话单元的用户关注度。进而,系统基于历史对话单元的用户关注度,确定历史对话单元的消息折叠策略。可以理解,历史对话单元的用户关注度越低,其内容被折叠的可能性越大。如此,可以方便用户查看感兴趣的历史交互内容,具体地,可以帮助用户快速定位感兴趣的历史交互内容。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种历史消息折叠方法和系统。
背景技术
随着人工智能技术的发展,智能对话助理的应用越来越广泛。智能对话助理经常产生篇幅较长的消息(例如,包含富媒体内容的消息),给用户查看感兴趣的历史交互内容带来不便。
因此,目前希望提供一种方便用户查看感兴趣的历史交互内容的方法。
发明内容
本说明书实施例的第一方面提供一种历史消息折叠方法,包括:获取多个历史对话单元和与所述多个历史对话单元分别对应的多个时间点,其中,每个历史对话单元包括用户输入的问题和系统反馈的答案;将所述多个历史对话单元中的历史对话单元两两组合,得到多组历史对话单元;确定每组历史对话单元中的两个历史对话单元之间的语义相似度,得到与多组历史对话单元分别对应的多个语义相似度;基于所述多个语义相似度和所述多个时间点,确定每个所述历史对话单元的用户关注度;基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略。
在一些实施例中,所述两个历史对话单元之间的语义相似度为所述两个历史对话单元中的答案之间的语义相似度,与每个历史对话单元对应的时间点为所述历史对话单元中的答案对应的时间点。
在一些实施例中,所述语义相似度为文本相似度。对于包含非文本信息的历史会话单元,为了确定该历史会话单元与其它历史会话单元之间的文本相似度,所述方法还包括:获取该历史会话单元中的非文本信息的文本描述。
在一些实施例中,当所述非文本信息包括图片时,获取所述非文本信息的文本描述包括:将所述图片输入第一特征提取模型,得到所述图片的特征;将所述图片的特征输入第一自然语言处理模型,得到所述图片的文本描述。
在一些实施例中,当所述非文本信息包括视频时,获取所述非文本信息的文本描述包括:将所述视频输入第二特征提取模型,得到所述视频的特征;将所述视频的特征输入第二自然语言处理模型,得到所述视频的文本描述。
在一些实施例中,所述视频的特征包括所述视频中的关键帧和/或所述视频的运动信息。
在一些实施例中,基于所述多个语义相似度和所述多个时间点,确定所述多个历史对话单元的用户关注度,包括:基于所述多个语义相似度和所述多个时间点,利用层次分析法确定所述多个历史对话单元的用户关注度。
在一些实施例中,基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略,包括:当所述多个历史对话单元包括关注度低于第一阈值的第一历史对话单元时,将所述第一历史对话单元中的答案完全折叠;当所述多个历史对话单元包括关注度高于所述第一阈值且低于第二阈值的第二历史对话单元时,将所述第二历史对话单元中的答案部分折叠;当所述多个历史对话单元包括关注度高于所述第二阈值的第三历史对话单元时,将所述第三历史对话单元中的答案完整呈现。
本说明书实施例的第二方面提供一种历史消息折叠装置,包括处理器和存储设备。所述存储设备用于存储指令,当所述处理器执行指令时,实现如本说明书任一实施例所述的历史消息折叠方法。
本说明书实施例的第三方面提供一种计算机可读存储介质,所述存储介质存储有历史消息折叠指令。当计算机运行所述历史消息折叠指令时,实现如本说明书任一实施例所述的历史消息折叠方法。
本说明书实施例的第四方面提供一种历史消息折叠系统,包括:获取模块,用于获取多个历史对话单元和与所述多个历史对话单元分别对应的多个时间点,其中,每个历史对话单元包括用户输入的问题和系统反馈的答案;组合模块,用于将所述多个历史对话单元中的历史对话单元两两组合,得到多组历史对话单元;相似度确定模块,用于确定每组历史对话单元中的两个历史对话单元之间的语义相似度,得到与多组历史对话单元分别对应的多个语义相似度;关注度确定模块,用于基于所述多个语义相似度和所述多个时间点,确定每个所述历史对话单元的用户关注度;折叠模块,用于基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1示出了智能对话助理的示例性对话界面;
图2是根据本说明书一些实施例所示的历史消息折叠系统的示例性模块图;
图3是根据本说明书一些实施例所示的历史消息折叠方法的示例性流程图;
图4是根据本说明书一些实施例所示的利用层次分析方法确定多个历史对话单元的用户关注度的示例性流程图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
目前,很多行业都提供智能对话助理的服务。为了能够让用户获取详细的信息,智能对话助理在回答用户输入的问题时,经常会输出篇幅较长的消息。参考图1,在财经问答场景下,用户输入基金经理的姓名(如“张三”),以获取基金经理的相关信息。为了让用户能够全面了解基金经理的相关信息,智能对话助理会输出关于基金经理的富媒体内容,包括但不限于:公开照片、文字简介以及介绍视频。这些富媒体内容会占用大面积的屏幕空间,给用户查看感兴趣的历史交互内容带来不便。具体地,无论是用户感兴趣的历史交互内容还是用户不感兴趣的历史交互内容都占据了屏幕的大部分空间,如此,用户需要耗费大量时间在滑动操作上,才能找到感兴趣的历史交互内容。
有鉴于此,本说明书实施例提供一种历史消息折叠方法和系统。其中,系统基于不同历史对话单元之间的语义相似度和不同历史对话单元的时间信息,确定每个历史对话单元的用户关注度(也称作感兴趣程度)。进而,系统基于历史对话单元的用户关注度,确定历史对话单元的消息折叠策略。可以理解,历史对话单元的用户关注度越低,其内容被折叠的可能性越大。如此,可以方便用户查看感兴趣的历史交互内容,具体地,可以帮助用户快速定位感兴趣的历史交互内容(减少不必要的滑动操作)。
图2是根据本说明书一些实施例所示的历史消息折叠系统的模块图。历史消息折叠系统200(简称系统200)可以在计算设备上实现。在一些实施例中,系统200可以是智能对话助理的一部分。如图2所示,系统200包括获取模块210、组合模块220、相似度确定模块230、关注度确定模块240和折叠模块250。
获取模块210用于获取多个历史对话单元和与所述多个历史对话单元分别对应的多个时间点。其中,每个历史对话单元包括用户输入的问题和系统反馈的答案。
组合模块220用于将所述多个历史对话单元中的历史对话单元两两组合,得到多组历史对话单元。
相似度确定模块230用于确定每组历史对话单元中的两个历史对话单元之间的语义相似度,得到与多组历史对话单元分别对应的多个语义相似度。
关注度确定模块240用于基于所述多个语义相似度和所述多个时间点,确定每个所述历史对话单元的用户关注度。
折叠模块250用于对每个所述历史对话单元,基于所述历史对话单元的用户关注度,确定所述历史对话单元的消息折叠策略。
关于系统200及其模块的更多细节,可以参考图3及其相关描述。
应当理解,图2所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,相似度确定模块230和关注度确定模块240可以是两个模块,也可以合并为一个模块。诸如此类的变形,均在本说明书的保护范围之内。
图3是根据本说明书一些实施例所示的历史消息折叠方法的示例性流程图。
在一些实施例中,流程300可以由图2所示的历史消息折叠系统200执行。在一些实施例中,响应于用户输入新问题,系统200执行流程300。在一些实施例中,响应于对话界面(例如,图1所示的界面)被开启,系统200执行流程300。
如图3所示,流程300包括以下步骤。
步骤310,获取多个历史对话单元和与所述多个历史对话单元分别对应的多个时间点。在一些实施例中,步骤310可以由获取模块210执行。
每个对话单元(例如,每个历史对话单元)包括用户输入的问题(Question)和系统200反馈的答案(Answer)。每个对话单元也可称作Q&A。
本说明书对问题和答案的具体形式不做任何限制。用户输入的完整句子可以被识别为问题,用户输入的词语也可以被识别为问题。用户输入的疑问句可以被识别为问题,用户输入的陈述句也可以被识别为问题。当然,用户输入问题时还可以省略标点符号。用户可以输入文本消息或语音消息作为问题。如前所述,系统200可以反馈各种形式的答案,包括但不限于文本、语音、图片、视频。用户可以一次性输入一个或多个问题,所述一个或多个问题属于一个对话单元。针对所述一个或多个问题,系统200可以反馈一个或多个答案,所述一个或多个答案属于一个对话单元。
在一些实施例中,每个历史对话单元中的问题的输入时间点可以作为该历史对话单元对应的时间点。在一些实施例中,每个历史对话单元中的答案的反馈时间点可以作为该历史对话单元对应的时间点。在一些实施例中,每个历史对话单元对应的时间点也可以由所述问题的输入时间点和所述答案的反馈时间点共同决定,例如,每个历史对话单元对应的时间点可以取所述问题的输入时间点和所述答案的反馈时间点的平均值。
在一些实施例中,获取模块210可以获取迄今为止所有的历史对话单元。在一些实施例中,获取模块210可以获取最近一段时间内的历史对话单元,例如,最近一个月的历史对话单元。
步骤320,将所述多个历史对话单元中的历史对话单元两两组合,得到多组历史对话单元。在一些实施例中,步骤320可以由组合模块220执行。
假设获取模块210获取到n(n为大于1的整数)个历史对话单元,那么组合模块220可以得到n(n-1)/2组历史对话单元。
步骤330,确定每组历史对话单元中的两个历史对话单元之间的语义相似度,得到与多组历史对话单元分别对应的多个语义相似度。在一些实施例中,步骤330可以由相似度确定模块230执行。
不同历史对话单元之间的语义相似度也可以理解为不同历史对话单元之间的重合度。
在一些实施例中,在确定所述多个语义相似度时,可以仅考虑历史对话单元中的答案,即,忽略历史对话单元中的问题。在一些实施例中,在确定所述多个语义相似度时,也可以将历史对话单元中的问题和答案一并考虑。
在一些实施例中,所述两个历史对话单元之间的语义相似度为所述两个历史对话单元中的答案之间的语义相似度,同时,与每个历史对话单元对应的时间点为所述历史对话单元中的答案对应的时间点(即上文所述的反馈时间点)。如此,确定语义相似度时仅需提取答案和答案的时间点,可以有效降低计算量,从而提高处理效率。
在一些实施例中,所述语义相似度为文本相似度。对于包含非文本信息(例如,图片、语音或视频形式的答案)的历史会话单元,相似度确定模块230可以获取该历史会话单元中的非文本信息的文本描述,以确定该历史会话单元与其它历史会话单元之间的文本相似度。对于同一历史会话单元,相似度确定模块230可以将该历史对话单元中的文本信息和该历史对话单元中的非文本信息的文本描述组合在一起,以基于组合文本确定文本相似度,例如,将表示非文本信息的文本描述的文本序列和表示文本信息的文本序列拼接在一起,以基于拼接文本确定文本相似度。通过获取历史会话单元中的非文本信息的文本描述,可以将不同模态的内容整合成统一的文本,进而可以准确分析出不同历史会话单元之间的语义相似度。
文本可以通过若干词语的词向量的序列表示,该序列称作文本序列。
在一些实施例中,相似度确定模块230可以通过机器学习的方式获取非文本信息的文本描述。即,相似度确定模块230可以利用经过训练的机器学习模型处理非文本信息,得到所述非文本信息的文本描述。
在一些实施例中,当所述非文本信息包括图片时,相似度确定模块230可以将所述图片输入第一特征提取模型,得到所述图片的特征。进而,相似度确定模块230可以将所述图片的特征输入第一自然语言处理(Natural Language Processing, NLP)模型,得到所述图片的文本描述。
本说明书提及的模型,例如,第一/第二特征提取模型、第一/第二自然语言处理模型、语音识别模型可以是经过训练的机器学习模型。机器学习模型包括但不限于神经网络。特征提取模型和自然语言模型可以一起训练(即端到端的训练方式),也可以分开训练。对于端到端的训练方式,特征提取模型和自然语言模型可以共享一套训练数据集,其中,每个训练样本包括样本图像数据(图片或视频)及其文本描述的标签值。损失函数可以反映样本图像的文本描述的预测值和标签值之间的差异。
在一些实施例中,第一特征提取模型包括2D卷积神经网络模型(ConvolutionalNeural Networks,CNN),例如,经过预训练的深度残差网络(Deep Residual Network,ResNet),第一NLP模型包括循环神经网络(Recurrent Neural Network,RNN),例如,长短期记忆(Long Short-Term Memory,LSTM)模型。
ResNet是一种深度卷积神经网络架构,用于图像识别和计算机视觉任务。ResNet的核心思想是学习残差函数,即网络要学习输入与输出之间的差异,而不是直接学习输出。通过这种方式,ResNet可以轻松地训练数百甚至上千层的网络,而不会出现梯度消失的问题。这种能力使得ResNet成为处理复杂任务和更深层网络的理想选择。CNN是一种在计算机视觉和图像处理领域广泛应用的深度学习算法。CNN的核心思想是利用卷积操作对输入数据进行特征提取和学习。相比传统的全连接神经网络,CNN的主要优势在于它能够有效处理具有网格结构的数据,例如图像。
LSTM(Long Short-Term Memory)模型是一种循环神经网络(RNN)的变体,用于处理具有时间序列结构的数据。LSTM在处理长期依赖性问题上表现出色,并广泛应用于自然语言处理和序列建模任务。在传统的RNN中,信息从一个时间步传递到下一个时间步,但存在梯度消失或梯度爆炸的问题,导致模型难以有效地捕捉长期依赖关系。LSTM通过引入一种称为门控机制(gate mechanism)的结构来解决这些问题。通过门控机制,LSTM可以有效地控制信息的流动和保留重要的上下文信息。这使得LSTM能够捕捉长期依赖关系,并更好地处理序列数据。LSTM模型在自然语言处理任务中被广泛应用,本说明书实施例将LSTM模型用于生成图片(或视频)的文本描述。
在一些实施例中,当所述非文本信息包括视频时,相似度确定模块230可以将所述视频输入第二特征提取模型,得到所述视频的特征。进而,相似度确定模块230可以将所述视频的特征输入第二自然语言处理(NLP)模型,得到所述视频的文本描述。
在一些实施例中,所述视频的特征包括所述视频中的关键帧和/或所述视频的运动信息。关键帧指角色或者物体运动变化中关键动作所处的帧。视频的运动信息可以反映角色或者物体在视频中的变化。
在一些实施例中,第二特征提取模型包括3D卷积神经网络模型(ConvolutionalNeural Networks,CNN),第二NLP模型包括循环神经网络(Recurrent Neural Network,RNN),例如,长短期记忆(Long Short-Term Memory,LSTM)模型。
3D卷积神经网络模型是一种用于处理三维(例如视频)数据的深度学习模型。与传统的卷积神经网络(即2D卷积神经网络模型)用于处理二维图像数据不同,3D卷积神经网络模型可以有效地处理具有时间维度的数据(如视频)。3D卷积神经网络在计算机视觉领域中常用于视频分类、动作识别、视频分割和视频生成等任务。它可以对时序数据中的空间和时间特征进行学习,从而更好地捕捉视频中的动态变化和运动信息。与2D卷积神经网络类似,3D卷积神经网络也具有卷积层、池化层和全连接层等组件。主要的区别在于3D卷积操作会沿着三个维度(宽度、高度和时间)进行滑动,以在时空域中提取特征。通过在视频数据上堆叠多个3D卷积层和全连接层,可以构建更深的3D卷积神经网络。这样的网络可以自动学习并提取视频中的复杂时空特征,从而实现高效的视频分析和理解。
在一些实施例中,当所述非文本信息包括语音时,相似度确定模块230可以将所述视频输入语音识别模型,得到所述语音的文本描述。语音识别模型用于将语音转换成文字,也称作语音转文字模型。语音识别模型可以包括声学模型和语音模型,其中,声学模型用于提取语音的声学特征,语音模型用于将所述声学特征转换成文字。
相似度确定模块230也可以通过其他方式获取非文本信息的文本描述。以视频为例,相似度确定模块230可以直接将视频的元数据(如文字标题、文字标签)确定为视频的文本描述,也可以从视频的字幕中提取视频的文本描述。
步骤340,基于所述多个语义相似度和所述多个时间点,确定每个历史对话单元的用户关注度。在一些实施例中,步骤340可以由关注度确定模块240执行。
本说明书实施例中,在确定历史对话单元的用户关注度时,不仅考虑不同历史对话单元之间的语义相似度(重合度),还考虑不同历史对话单元对应的时间点。通过结合语义因素和时间因素,可以精准分析出每个历史对话单元的用户关注度。
本说明书对结合语义因素和时间因素确定用户关注度的实现方式不做具体限制。仅作为示例,关注度确定模块240可以基于所述多个语义相似度和所述多个时间点,利用层次分析方法确定所述多个历史对话单元的用户关注度。关于利用层次分析方法确定所述多个历史对话单元的用户关注度的实现细节,可以参考图4及其相关描述。
步骤350,基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略。在一些实施例中,步骤350可以由折叠模块250执行。
消息折叠策略可以仅应用于历史对话单元中的答案。当然,消息折叠策略也可以应用于历史对话单元的全部内容。为了方便描述,以下均以消息折叠策略仅应用于历史对话单元中的答案为例进行说明。
用户关注度可以被划分为至少两个等级,其中,每个等级可以对应一种消息折叠策略。折叠模块250可以确定每个历史对话单元的用户关注度所处的目标等级,并将目标等级对应的目标消息折叠策略确定为该历史对话单元的消息折叠策略。仅作为示例,用户关注度可以被划分为两个等级:“关注”和“不关注”。“关注”对应的消息折叠策略为“不折叠”,“不折叠”可指完整呈现历史对话单元中的答案。“不关注”对应的消息折叠策略为“折叠”,“折叠”可指将历史对话单元中的答案完全折叠或全部折叠。在对话界面,被折叠的历史消息(如答案)的显示区域中可以设有取消折叠的按钮(如展开按钮),用户通过触摸/点击该按钮可以完整呈现该历史消息。
用户关注度的等级可以通过一个或多个阈值来界定。以用户关注度被划分为三个等级(例如,高/中/低)为例,历史对话单元可以被分为第一历史对话单元、第二历史对话单元和第三历史对话单元三种,其中第一历史对话单元的关注度低于第一阈值(关注度低),第二历史对话单元的关注度高于第一阈值且低于第二阈值(关注度中等),第三历史对话单元的关注度高于第二阈值(关注度高)。当所述多个历史对话单元包括第一历史对话单元时,折叠模块250可以将所述第一历史对话单元中的答案完全折叠(即,仅呈现问题);当所述多个历史对话单元包括第二历史对话单元时,折叠模块250可以将所述第二历史对话单元中的答案部分折叠;当所述多个历史对话单元包括第三历史对话单元时,折叠模块250可以将所述第三历史对话单元中的答案完整呈现。其中,部分折叠可以指仅呈现答案的概要信息,例如,仅呈现文本形式的简介。被部分折叠的历史消息(如答案)可以被显示在预设大小的对话框内。
在一些实施例中,对于确定的多个第二历史对话单元,折叠模块250可以利用聚类算法在特征空间将所述多个第二历史对话单元划分为多个簇,这里的特征空间是指用点表示历史对话单元对应的文本序列(向量形式)的空间。每个簇中的历史对话单元之间的距离与文本相似度之间存在一定关系(例如,文本相似度越大,距离越近)。然后,折叠模块250可以确定每个簇中的所有第二历史对话单元中的答案的共同内容(或称作重合内容)。对于每个簇中的每个第二历史单元,折叠模块250可以仅呈现所述答案的共同内容。
在一些实施例中,每个第二历史对话单元中的答案的显示比例可以根据该第二历史对话单元的用户关注度动态确定。仅作为示例,当用户关注度的取值范围为0~100%时,每个第二历史对话单元中的答案的显示比例可以就等于该第二历史对话单元的用户关注度(介于0和100%之间)。
在一些实施例中,所述一个或多个阈值可以基于所述多个历史对话单元的用户关注度的排序结果确定。例如,折叠模块250可以从排序后的所述多个历史对话单元的用户关注度中确定k-1个用户关注度作为k-1个阈值。可以理解,通过这k-1个阈值,可以将所述多个历史对话单元的用户关注度划分为k(例如,k=3)个等级。
在一些实施例中,所述一个或多个阈值也可以与所述多个历史对话单元的用户关注度的排序结果无关。例如,用户关注度的取值范围为0~100%时,无论所述多个历史对话单元的用户关注度的排序结果如何,可以将所述第一阈值设为30%,并将所述第二阈值设为70%。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的利用层次分析方法确定多个历史对话单元的用户关注度的示例性流程图。如图4所示,流程400包括以下步骤。
步骤410,构造多个历史对话单元的判断矩阵。
判断矩阵可以表示如下:
(1)。
其中,n表示历史对话单元的数量(即,所述多个历史对话单元为n个历史对话单元),A表示判断矩阵,表示该矩阵中第i行第j列的元素。
步骤420,基于多个语义相似度,确定判断矩阵中各元素的值。
所述多个语义相似度基于所述多个历史对话单元得到。关于确定所述多个语义相似度的更多细节,可以参考步骤320~330的相关描述。
仅作为示例,当所述语义相似度为文本序列之间的余弦相似度时,为了方便后续计算,通过线性映射,将余弦相似度(1~1)转换至非负数值范围(0~10)内。为了方便描述,将第i个历史对话单元和第j个历史对话单元之间的转换后的语义相似度记为/>。当/>(即,第i个历史对话单元对应的时间点早于第j个历史对话单元对应的时间点)且/>时,令/>,并令/>。当/>且/>时,令/>。另外,令对角元素。若/>总是大于0,则判断矩阵的赋值可以表示如下:
(2)。
在一些实施例中,可以对判断矩阵进行一致性检验,以确保判断矩阵的一致性。一致性检验通常使用一致性指标进行。仅作为示例,一致性指标可以包括 C.I值和C.R值。C.I值越小代表一致性越高,例如,C.I0.1表示判断矩阵的一致性可接受,而C.I>0.1表示判断矩阵的一致性不不可接受,即需要重新评比(如做出调整后再检验),直至C.I值改善到被接受为止。C.I 值可以表示如下:
(3)。
其中,为判断矩阵A的最大特征值,n为判断矩阵A的阶数。
C.R值越小代表一致性越高,例如,C.R0.1表示判断矩阵的一致性可接受,否则需要重新评比。C.R值是C.I值与R.I值的比率(也称作一致性比率),R.I值(也称作平均随机一致性指标)通过重复(如重复500次以上)进行随机判断矩阵特征根计算之后求算术平均得到。一致性比率 C.R可以表示如下:
(4)。
步骤430,基于判断矩阵中各元素的值,确定所述多个历史对话单元的用户关注度。
关注度确定模块240可以计算矩阵A的特征向量,特征向量/>的n个元素即所述n个历史对话单元的用户关注度。综合/>的特殊情况,特征向量/>可以表示如下:
(5)。
结合参考公式(2)和公式(3),不妨只考虑,通过对/>进行归一化(即求特征向量),使得:重合度(/>)高的历史对话单元容易获得高权值(对应高用户关注度)。同时,之前的求倒数操作使得:越早发生的历史对话单元,获得的权值越低(即用户关注度越低)。即,用户倾向于关注重合度高且最近发生的历史对话单元。
本说明书实施例可能带来的有益效果包括但不限于:(1)提供了一种基于语义相似度的历史消息折叠方法,可以方便用户查看感兴趣的历史交互内容,具体地,可以帮助用户快速定位感兴趣的历史交互内容(减少不必要的滑动操作);(2)通过获取历史会话单元中的非文本信息的文本描述,可以将不同模态的内容整合成统一的文本,进而可以准确分析出不同历史会话单元之间的语义相似度,精准的语义相似度有助于精准分析出历史消息的用户关注度。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (11)
1.一种历史消息折叠方法,其特征在于,包括:
获取多个历史对话单元和与所述多个历史对话单元分别对应的多个时间点,其中,每个历史对话单元包括用户输入的问题和系统反馈的答案;
将所述多个历史对话单元中的历史对话单元两两组合,得到多组历史对话单元;
确定每组历史对话单元中的两个历史对话单元之间的语义相似度,得到与多组历史对话单元分别对应的多个语义相似度;
基于所述多个语义相似度和所述多个时间点,确定每个所述历史对话单元的用户关注度;
基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略。
2.如权利要求1所述的方法,其特征在于,所述两个历史对话单元之间的语义相似度为所述两个历史对话单元中的答案之间的语义相似度,与每个历史对话单元对应的时间点为所述历史对话单元中的答案对应的时间点。
3.如权利要求1或2所述的方法,其特征在于,所述语义相似度为文本相似度;
对于包含非文本信息的历史会话单元,为了确定该历史会话单元与其它历史会话单元之间的文本相似度,所述方法还包括:
获取该历史会话单元中的非文本信息的文本描述。
4.如权利要求3所述的方法,其特征在于,当所述非文本信息包括图片时,获取所述非文本信息的文本描述包括:
将所述图片输入第一特征提取模型,得到所述图片的特征;
将所述图片的特征输入第一自然语言处理模型,得到所述图片的文本描述。
5.如权利要求3所述的方法,其特征在于,当所述非文本信息包括视频时,获取所述非文本信息的文本描述包括:
将所述视频输入第二特征提取模型,得到所述视频的特征;
将所述视频的特征输入第二自然语言处理模型,得到所述视频的文本描述。
6.如权利要求5所述的方法,其特征在于,所述视频的特征包括所述视频中的关键帧和/或所述视频的运动信息。
7.如权利要求1所述的方法,其特征在于,基于所述多个语义相似度和所述多个时间点,确定所述多个历史对话单元的用户关注度,包括:
基于所述多个语义相似度和所述多个时间点,利用层次分析法确定所述多个历史对话单元的用户关注度。
8.如权利要求1所述的方法,其特征在于,基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略,包括:
当所述多个历史对话单元包括关注度低于第一阈值的第一历史对话单元时,将所述第一历史对话单元中的答案完全折叠;
当所述多个历史对话单元包括关注度高于所述第一阈值且低于第二阈值的第二历史对话单元时,将所述第二历史对话单元中的答案部分折叠;
当所述多个历史对话单元包括关注度高于所述第二阈值的第三历史对话单元时,将所述第三历史对话单元中的答案完整呈现。
9.一种历史消息折叠装置,其特征在于,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如权利要求1~8中任一项所述的历史消息折叠方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有历史消息折叠指令,当计算机运行所述历史消息折叠指令时,实现如权利要求1~8中任一项所述的历史消息折叠方法。
11.一种历史消息折叠系统,其特征在于,包括:
获取模块,用于获取多个历史对话单元和与所述多个历史对话单元分别对应的多个时间点,其中,每个历史对话单元包括用户输入的问题和系统反馈的答案;
组合模块,用于将所述多个历史对话单元中的历史对话单元两两组合,得到多组历史对话单元;
相似度确定模块,用于确定每组历史对话单元中的两个历史对话单元之间的语义相似度,得到与多组历史对话单元分别对应的多个语义相似度;
关注度确定模块,用于基于所述多个语义相似度和所述多个时间点,确定每个所述历史对话单元的用户关注度;
折叠模块,用于基于所述多个历史对话单元的用户关注度,确定所述多个历史对话单元的消息折叠策略。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311033036.5A CN116743692B (zh) | 2023-08-16 | 2023-08-16 | 一种历史消息折叠方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311033036.5A CN116743692B (zh) | 2023-08-16 | 2023-08-16 | 一种历史消息折叠方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116743692A true CN116743692A (zh) | 2023-09-12 |
CN116743692B CN116743692B (zh) | 2023-10-20 |
Family
ID=87910134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311033036.5A Active CN116743692B (zh) | 2023-08-16 | 2023-08-16 | 一种历史消息折叠方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116743692B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194179A (zh) * | 2023-11-08 | 2023-12-08 | 杭州星锐网讯科技有限公司 | 一种指标的确定方法、装置、电子设备及存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100111164A (ko) * | 2009-04-06 | 2010-10-14 | 삼성전자주식회사 | 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법 |
CN102246171A (zh) * | 2008-12-11 | 2011-11-16 | 微软公司 | 提供具有搜索结果的最近历史 |
US20150006510A1 (en) * | 2013-06-28 | 2015-01-01 | Vonage Network Llc | Method and apparatus for providing conversation history generated from multiple communication channels |
CN110262715A (zh) * | 2019-06-04 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 信息处理方法及装置、计算机可读存储介质和电子设备 |
CN110266505A (zh) * | 2019-04-29 | 2019-09-20 | 上海连尚网络科技有限公司 | 一种管理会话群的方法与设备 |
CN110413744A (zh) * | 2019-06-17 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 即时通讯过程中的对话消息处理方法、装置及设备 |
CN110879837A (zh) * | 2018-09-06 | 2020-03-13 | 华为技术有限公司 | 一种信息处理方法及装置 |
CN111414462A (zh) * | 2020-02-21 | 2020-07-14 | 网易(杭州)网络有限公司 | 一种对话语句确定方法、装置、计算机设备和介质 |
CN111555966A (zh) * | 2020-05-22 | 2020-08-18 | 拉扎斯网络科技(上海)有限公司 | 消息处理方法、装置、系统、存储介质及计算机设备 |
CN112199481A (zh) * | 2020-09-30 | 2021-01-08 | 中国人民大学 | 一种采用pcc对话模型的单用户个性化对话方法和系统 |
CN113157876A (zh) * | 2021-03-18 | 2021-07-23 | 平安普惠企业管理有限公司 | 信息反馈方法、装置、终端和存储介质 |
CN113360238A (zh) * | 2021-06-29 | 2021-09-07 | 维沃移动通信有限公司 | 消息处理方法、装置、电子设备和存储介质 |
CN113923175A (zh) * | 2021-09-30 | 2022-01-11 | 钉钉(中国)信息技术有限公司 | 通讯会话的管理方法及装置 |
CN115967691A (zh) * | 2022-12-23 | 2023-04-14 | 北京字跳网络技术有限公司 | 消息处理方法、装置、电子设备、存储介质及程序产品 |
CN116541114A (zh) * | 2023-04-28 | 2023-08-04 | 北京字跳网络技术有限公司 | 一种信息展示方法、装置、计算机设备以及存储介质 |
-
2023
- 2023-08-16 CN CN202311033036.5A patent/CN116743692B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102246171A (zh) * | 2008-12-11 | 2011-11-16 | 微软公司 | 提供具有搜索结果的最近历史 |
KR20100111164A (ko) * | 2009-04-06 | 2010-10-14 | 삼성전자주식회사 | 사용자의 발화의도를 파악하는 음성 대화 처리장치 및 음성 대화 처리방법 |
US20150006510A1 (en) * | 2013-06-28 | 2015-01-01 | Vonage Network Llc | Method and apparatus for providing conversation history generated from multiple communication channels |
CN110879837A (zh) * | 2018-09-06 | 2020-03-13 | 华为技术有限公司 | 一种信息处理方法及装置 |
CN110266505A (zh) * | 2019-04-29 | 2019-09-20 | 上海连尚网络科技有限公司 | 一种管理会话群的方法与设备 |
CN110262715A (zh) * | 2019-06-04 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 信息处理方法及装置、计算机可读存储介质和电子设备 |
CN110413744A (zh) * | 2019-06-17 | 2019-11-05 | 阿里巴巴集团控股有限公司 | 即时通讯过程中的对话消息处理方法、装置及设备 |
CN111414462A (zh) * | 2020-02-21 | 2020-07-14 | 网易(杭州)网络有限公司 | 一种对话语句确定方法、装置、计算机设备和介质 |
CN111555966A (zh) * | 2020-05-22 | 2020-08-18 | 拉扎斯网络科技(上海)有限公司 | 消息处理方法、装置、系统、存储介质及计算机设备 |
CN112199481A (zh) * | 2020-09-30 | 2021-01-08 | 中国人民大学 | 一种采用pcc对话模型的单用户个性化对话方法和系统 |
CN113157876A (zh) * | 2021-03-18 | 2021-07-23 | 平安普惠企业管理有限公司 | 信息反馈方法、装置、终端和存储介质 |
CN113360238A (zh) * | 2021-06-29 | 2021-09-07 | 维沃移动通信有限公司 | 消息处理方法、装置、电子设备和存储介质 |
CN113923175A (zh) * | 2021-09-30 | 2022-01-11 | 钉钉(中国)信息技术有限公司 | 通讯会话的管理方法及装置 |
CN115967691A (zh) * | 2022-12-23 | 2023-04-14 | 北京字跳网络技术有限公司 | 消息处理方法、装置、电子设备、存储介质及程序产品 |
CN116541114A (zh) * | 2023-04-28 | 2023-08-04 | 北京字跳网络技术有限公司 | 一种信息展示方法、装置、计算机设备以及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117194179A (zh) * | 2023-11-08 | 2023-12-08 | 杭州星锐网讯科技有限公司 | 一种指标的确定方法、装置、电子设备及存储介质 |
CN117194179B (zh) * | 2023-11-08 | 2024-04-16 | 杭州星锐网讯科技有限公司 | 一种指标的确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116743692B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106973244B (zh) | 使用弱监督数据自动生成图像字幕的方法和系统 | |
GB2547068B (en) | Semantic natural language vector space | |
CN107066464B (zh) | 语义自然语言向量空间 | |
US20230394102A1 (en) | Automatic navigation of interactive web documents | |
US11645314B2 (en) | Interactive information retrieval using knowledge graphs | |
Garcia et al. | A dataset and baselines for visual question answering on art | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN116743692B (zh) | 一种历史消息折叠方法和系统 | |
RU2712101C2 (ru) | Предсказание вероятности появления строки с использованием последовательности векторов | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
Çayli et al. | Knowledge distillation for efficient audio-visual video captioning | |
Shi et al. | Learning modality-fused representation based on transformer for emotion analysis | |
Ishmam et al. | From image to language: A critical analysis of visual question answering (vqa) approaches, challenges, and opportunities | |
Hafeth et al. | Semantic representations with attention networks for boosting image captioning | |
CN114120166A (zh) | 视频问答方法、装置、电子设备及存储介质 | |
CN110580294A (zh) | 实体融合方法、装置、设备及存储介质 | |
US20230281400A1 (en) | Systems and Methods for Pretraining Image Processing Models | |
CN115130461A (zh) | 一种文本匹配方法、装置、电子设备及存储介质 | |
Zhang et al. | Expression recognition algorithm based on CM-PFLD key point detection | |
Hattimare et al. | Maruna Bot: An extensible retrieval-focused framework for task-oriented dialogues | |
Guo et al. | ADCI-Net: an adaptive discriminative clip identification strategy for fast video action recognition | |
Pai et al. | Multimodal integration, fine tuning of large language model for autism support | |
Liu et al. | Facial expression recognition based on improved residual network | |
CN117671426B (zh) | 基于概念蒸馏和clip的可提示分割模型预训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |