CN113821669A - 搜索方法、装置、电子设备和存储介质 - Google Patents

搜索方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN113821669A
CN113821669A CN202110775715.4A CN202110775715A CN113821669A CN 113821669 A CN113821669 A CN 113821669A CN 202110775715 A CN202110775715 A CN 202110775715A CN 113821669 A CN113821669 A CN 113821669A
Authority
CN
China
Prior art keywords
text
content
target image
source
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110775715.4A
Other languages
English (en)
Inventor
郑千帆
梁超杰
伍嘉辉
孙凯
段焕中
黄斌
陈礼君
叶绿珊
蔡博伦
姚创沐
陈实
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110775715.4A priority Critical patent/CN113821669A/zh
Publication of CN113821669A publication Critical patent/CN113821669A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种搜索方法、装置、电子设备和存储介质;可以展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问,提升用户的信息获取效率。

Description

搜索方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及一种搜索方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的发展,各种社交应用的应用范围越来越广。用户通过社交应用进行内容分享是很常见的,比如分享文本图像。在一些情况下,文本图像只是呈现了某篇文章的一部分内容,也就是说,文本图像可能是从该篇文章对应的来源页面截取到的,若用户想要查看完整的文章,需要对文本图像进行源文本搜索。
在目前的相关技术中,对文本图像进行文本搜索的操作比较繁琐,需要使用专门的文字识别工具对文本图像进行文字识别以搜索对应的文本,使得用户获取信息的效率较低。
发明内容
本申请实施例提供一种搜索方法、装置、电子设备和存储介质,可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问,提升了用户的信息获取效率。
本申请实施例提供一种搜索方法,包括:
展示客户端的图像信息页面,所述图像信息页面包括目标图像;
响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;
响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
相应的,本申请实施例提供一种搜索装置,包括:
图像展示单元,用于展示客户端的图像信息页面,所述图像信息页面包括目标图像;
搜索结果展示单元,用于响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;
源文本展示单元,用于响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
可选的,在本申请的一些实施例中,所述来源页面包括所述源文本内容中与所述目标图像中文本内容关联的关联文本内容、以及所述目标图像中文本内容。
可选的,在本申请的一些实施例中,所述图像展示单元可以包括页面展示子单元和图像展示子单元,如下:
所述页面展示子单元,用于展示客户端的内容交互页面,所述内容交互页面包括所述客户端中用户的动态交互信息,所述动态交互信息包括所述目标图像;
图像展示子单元,用于响应于对所述目标图像的查看操作,展示图像信息页面。
可选的,在本申请的一些实施例中,所述页面展示子单元,还可以用于展示客户端中目标会话的消息会话页面,所述消息会话页面包括所述目标会话中成员发送的目标图像;
所述图像展示子单元,还可以用于响应于对所述目标图像的查看操作,展示图像信息页面。
可选的,在本申请的一些实施例中,所述搜索结果展示单元可以包括操作列表展示子单元和搜索结果展示子单元,如下:
所述操作列表展示子单元,用于响应于针对所述目标图像的操作,在所述图像信息页面上展示功能操作列表,所述功能操作列表包括搜索控件;
搜索结果展示子单元,用于响应于针对所述搜索控件的触发操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述来源页面还包括发布所述源文本内容的业务服务账号的属性信息。
可选的,在本申请的一些实施例中,所述源文本展示单元还可以包括建立子单元,如下:
所述建立子单元,用于响应于对所述业务服务账号的关联操作,建立所述客户端对应的目标用户账号与所述业务服务账号之间的关联关系。
可选的,在本申请的一些实施例中,所述内容描述信息包括发布所述源文本内容的业务服务账号的信息和所述源文本内容的摘要信息。
可选的,在本申请的一些实施例中,所述目标图像携带有所述目标图像对应的来源页面的链接信息;
所述搜索结果展示单元可以包括解析子单元和第一展示子单元,如下:
所述解析子单元,用于对所述目标图像进行解析,得到所述目标图像对应的来源页面的链接信息;
第一展示子单元,用于基于所述链接信息,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述搜索结果展示单元可以包括特征提取子单元、获取子单元和第二展示子单元,如下:
所述特征提取子单元,用于对所述目标图像进行特征提取,得到所述目标图像的视觉特征信息;
获取子单元,用于根据所述视觉特征信息和预设映射关系集合,获取所述目标图像对应的来源页面的链接信息,所述预设映射关系集合包括预设文本图像的视觉特征信息和预设文本图像对应的来源页面的链接信息之间的映射关系;
第二展示子单元,用于基于所述链接信息,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述搜索结果展示单元可以包括文本提取子单元、选取子单元和第三展示子单元,如下:
所述文本提取子单元,用于从所述目标图像中提取关键文本内容;
选取子单元,用于根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容;
第三展示子单元,用于基于所述源文本内容,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述文本提取子单元具体可以用于对所述目标图像进行文本识别,得到所述目标图像的文本内容,所述文本内容包括至少一个文本段;对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段;基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容。
可选的,在本申请的一些实施例中,步骤“对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段”,可以包括:
针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数;
将所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数;
根据各个文本段的目标重要性参数,从各个文本段中选取目标文本段。
可选的,在本申请的一些实施例中,步骤“针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数”,可以包括:
针对每个文本段中的各个文本单元,对所述文本单元在所述文本段中出现的频次进行统计,得到所述文本单元在所述文本段中的权重;
对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;
根据所述文本单元的参考权重、以及在所述文本段中的权重,确定所述文本单元的重要性参数。
可选的,在本申请的一些实施例中,步骤“基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容”,可以包括:
针对所述目标文本段中各文本句,计算所述文本句与各参考文本句之间的相似度,所述参考文本句为所述目标文本段中除所述文本句外的其他文本句;
设置所述目标文本段中各文本句的初始权重;
根据所述相似度,对所述目标文本段中各文本句的初始权重进行迭代运算,得到所述目标文本段中各文本句的权重;
根据所述权重,从所述目标文本段的各文本句中选取目标文本句作为所述目标图像的关键文本内容。
可选的,在本申请的一些实施例中,所述选取子单元具体可以用于对所述关键文本内容进行语义分析,得到所述关键文本内容的语义特征信息;计算所述关键文本内容的语义特征信息和候选文本内容的语义特征信息之间的相似度;根据所述相似度,从所述候选文本内容中选取源文本内容。
可选的,在本申请的一些实施例中,所述选取子单元具体可以用于对候选文本内容进行质量分析,得到所述候选文本内容的内容质量信息;根据所述关键文本内容与候选文本内容之间的相似度、以及所述候选文本内容的内容质量信息,从所述候选文本内容中选取源文本内容。
本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的搜索方法中的步骤。
此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的搜索方法中的步骤。
本申请实施例提供了一种搜索方法、装置、电子设备和存储介质,可以展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问,提升了用户的信息获取效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的搜索方法的场景示意图;
图1b是本申请实施例提供的搜索方法的流程图;
图1c是本申请实施例提供的搜索方法的另一流程图;
图1d是本申请实施例提供的搜索方法的说明图;
图1e是本申请实施例提供的搜索方法的另一流程图;
图1f是本申请实施例提供的搜索方法的页面示意图;
图2是本申请实施例提供的搜索方法的另一流程图;
图3是本申请实施例提供的搜索装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种搜索方法、装置、电子设备和存储介质。该搜索装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。
可以理解的是,本实施例的搜索方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
如图1a所示,以终端和服务器共同执行搜索方法为例。本申请实施例提供的搜索系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,搜索装置可以集成在终端中。
其中,终端10,可以用于:展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。其中,终端10可以包括手机、智能电视、平板电脑、笔记本电脑、个人计算机(PC,Personal Computer)、可穿戴设备、或车载计算机等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或者浏览器客户端等等。
其中,服务器11可以接收终端10发送的目标图像,以从所述目标图像中提取关键文本内容;并根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容;将源文本内容的相关内容发送给终端10,以使终端10基于所述源文本内容,展示所述目标图像对应的搜索结果页面。其中,服务器11可以是单台服务器,也可以是由多个服务器组成的服务器集群或云服务器。
上述服务器11进行源文本搜索的步骤,也可以由终端10执行。
本申请实施例提供的搜索方法涉及人工智能领域中的自然语言处理。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问。
其中,人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从搜索装置的角度进行描述,该搜索装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。
本申请实施例的搜索方法可以应用于各种需要进行源文本搜索的场景中。例如,在某即时通讯应用的消息会话页面中包括目标会话中成员发送的目标图像,可以通过本实施例提供的搜索方法,响应于对目标图像的搜索操作,可以展示目标图像对应的来源页面的内容描述信息,进而获取源文本内容,本申请的搜索方法,简化对目标图像进行源文本搜索的操作,能够实现对目标图像中文本内容的来源文本的快捷访问。
如图1b所示,该搜索方法的具体流程可以如下:
101、展示客户端的图像信息页面,所述图像信息页面包括目标图像。
本实施例中,该客户端可以是应用程序客户端,也可以是浏览器客户端,本实施例对此不作限制。比如,该客户端可以为即时通讯应用。
其中,图像信息页面为呈现目标图像的页面,它具体可以是聊天会话页面,也可以是信息交互页面等。
其中,目标图像可以是客户端中任何用户发布的图像,它的类型不限。在一实施例中,目标图像可以是用户在浏览内容页面中的某篇文章时,对内容页面进行截图处理得到的;具体场景中,用户a对某篇文章对应的内容页面进行截图处理,得到目标图像,并通过客户端将其发送给好友——用户b,由于截取到的单张图片可承载的信息量比较有限,也就是说,用户a截取到的目标图像通常只包含文章的一部分,而不包含未显示在屏幕内的上下文内容,当目标图像的接收者——用户b想要查看完整的截图来源页面中的内容时,可以通过本申请的搜索方法来对目标图像进行操作,以搜索获得该目标图像对应的来源页面中源文本内容,查看截图(即目标图像)来源的完整内容。
可选地,本实施例,步骤“展示客户端的图像信息页面”,可以包括:
展示客户端的内容交互页面,所述内容交互页面包括所述客户端中用户的动态交互信息,所述动态交互信息包括所述目标图像;
响应于对所述目标图像的查看操作,展示图像信息页面。
其中,内容交互页面为呈现客户端中用户信息交互的页面,动态交互信息可以包括文字、语音、图像、视频等等。
其中,对目标图像的查看操作可以包括对目标图像的点击操作,本实施例对此不作限制。
可选地,本实施例,步骤“展示客户端的图像信息页面”,可以包括:
展示客户端中目标会话的消息会话页面,所述消息会话页面包括所述目标会话中成员发送的目标图像;
响应于对所述目标图像的查看操作,展示图像信息页面。
其中,目标会话可以为用户与通讯对象之间的对话;具体地,目标会话可以是一对一的通讯对话,也可以是包括多个通讯对象的对话,即群对话。
其中,对目标图像的查看操作可以包括对目标图像的点击操作,本实施例对此不作限制。
可选地,也可以由电子设备上的图像获取设备来获取目标图像,比如,在接收到客户端的拍摄指令时,开启图像获取设备拍摄图像,将拍摄的图像作为目标图像,其中,图像获取设备可以是摄像头等。
102、响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容。
其中,目标图像可以只包含文本内容,也可以包含文本内容和图像内容等,本实施例对此不作限制。搜索结果页面展示了对目标图像进行源文本搜索后得到的搜索结果。该搜索结果具体可以包括一个或多个来源页面的内容描述信息。内容描述信息可以包含源文本内容的概括内容信息、封面信息等。
其中,来源页面为所述目标图像中文本内容来源的页面。具体地,目标图像可以是用户浏览内容页面中的某文章时对该内容页面进行截取得到的,则目标图像的来源页面也即展示这篇文章的内容页面。
其中,源文本内容具体也是搜索到的所述目标图像的来源页面中的文本内容,即源文本内容为目标图像中文本内容的来源文本。
可选地,本实施例,所述内容描述信息包括发布所述源文本内容的业务服务账号的信息和所述源文本内容的摘要信息。
其中,业务服务账号可以是公众账号,也可以是个人账号,本实施例对此不作限制。业务服务账号的信息可以包括业务服务账号的名称等相关信息。摘要信息可以是源文本内容的概括内容。
可选地,本实施例,所述来源页面包括所述源文本内容中与所述目标图像中文本内容关联的关联文本内容、以及所述目标图像中文本内容。
其中,目标图像可以是用户在浏览内容页面中的文章时对内容页面进行截取到的,这样截取到的通常只是文章的一部分内容,而没有截取到这部分内容的上下文内容。因此,对于目标图像的源文本内容,它可以包括目标图像中的文本内容,还可以包括目标图像中文本内容的上下文内容。
其中,关联文本内容具体可以是目标图像中文本内容在源文本内容中的上下文内容。
本实施例中,对目标图像的搜索操作可以包括用户的语音信息、触发操作等等,本实施例对此不作限制。
一些实施例中,该搜索方法可以识别用户的语音信息,并将用户的语音信息与客户端中图像搜索对应的预设文字信息进行匹配,即可确定用户对目标图像的操作。
其中,具体地,搜索操作包括针对目标图像的语音信息,当检测到针对目标图像的语音信息时,可以对获取到的语音信息提取语义特征信息,计算该语音信息的语义特征信息与预设文字信息之间的匹配度,根据匹配度,确定用户的操作是否为搜索目标图像。
可选地,本实施例,步骤“响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面”,可以包括:
响应于针对所述目标图像的操作,在所述图像信息页面上展示功能操作列表,所述功能操作列表包括搜索控件;
响应于针对所述搜索控件的触发操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面。
其中,对目标图像的操作可以根据实际情况进行设置,本实施例对此不作限制。比如该操作可以是对目标图像的按压操作,当检测到对目标图像的按压时长超过预设时间,可以在图像信息页面上展示功能操作列表。功能操作列表可以包括对目标图像的各种类型操作对应的控件,如功能操作列表可以包括收藏控件、搜索控件、发送控件以及编辑控件等。
其中,对搜索控件的触发操作具体可以是对搜索控件的点击操作等,本实施例对此不作限制。
可选地,本实施例,所述目标图像携带有所述目标图像对应的来源页面的链接信息;
步骤“展示所述目标图像对应的搜索结果页面”,可以包括:
对所述目标图像进行解析,得到所述目标图像对应的来源页面的链接信息;
基于所述链接信息,展示所述目标图像对应的搜索结果页面。
其中,链接信息也即来源页面的地址信息。
其中,可选地,该目标图像可以是用户a对内容页面(即目标图像的来源页面)进行截图时,将内容页面的链接信息以盲水印(一种隐形水印)的形式写入目标图像中,再将写入链接信息的目标图像发送给用户b,当用户b对收到的目标图像进行搜索操作、且该目标图像包含文本内容时,则可将其中的盲水印进行解析和提取,获取目标图像对应的来源页面的链接信息,提供给用户b进行跳转和查看。
其中,基于链接信息,展示目标图像对应的搜索结果页面,具体可以包括:获取该链接信息对应的页面(即目标图像的来源页面)中的文本信息(即源文本内容),然后,对源文本内容进行概括,得到源文本内容的摘要信息,并获取发布源文本内容的业务服务账号的信息,从而得到来源页面对应的内容描述信息,基于来源页面的内容描述信息,展示目标图像的搜索结果页面。
可选地,本实施例,步骤“展示所述目标图像对应的搜索结果页面”,可以包括:
对所述目标图像进行特征提取,得到所述目标图像的视觉特征信息;
根据所述视觉特征信息和预设映射关系集合,获取所述目标图像对应的来源页面的链接信息,所述预设映射关系集合包括预设文本图像的视觉特征信息和预设文本图像对应的来源页面的链接信息之间的映射关系;
基于所述链接信息,展示所述目标图像对应的搜索结果页面。
其中,预设文本图像为包含文本内容的图像,具体地,预设文本图像可以只包含文本内容,也可以包含文本内容和图像内容等,本实施例对此不作限制。
其中,可以通过神经网络模型对目标图像进行特征提取,本实施例对此不作限制。比如,该神经网络模型可以是视觉几何组网络(VGGNet,Visual Geometry GroupNetwork)、残差网络(ResNet,Residual Network)和密集连接卷积网络(DenseNet,DenseConvolutional Network)等等,但是应当理解的是,本实施例的神经网络模型并不仅限于上述列举的几种类型。
其中,对目标图像的特征提取,具体可以是对目标图像的卷积处理和池化处理。
其中,该预设映射关系集合可以是预设文本图像的视觉特征信息和预设文本图像对应的来源页面的链接信息二者的关系表。基于目标图像的视觉特征信息,从关系表中查找对应的目标图像的来源页面的链接信息。
需要说明的是,对目标图像进行特征提取的算法与预设映射关系集合中预设文本图像的视觉特征信息所使用的特征提取算法是相同的。
可选地,一些实施例中,当用户对内容页面进行截图时,可以提取该截图(具体为文本图像)的视觉特征向量以及该内容页面的链接信息,并建立二者(即文本图像的视觉特征信息和文本图像对应的来源页面(内容页面)的链接信息)之间的映射关系,得到预设映射关系集合。之后若其他用户对该截图进行源文本搜索,则可使用相同的算法提取视觉特征向量,并在原本建立的预设映射关系集合中查找对应的来源页面的链接信息,提供给用户进行跳转和查看。
其中,文本图像具体为包含但不限于文本内容的图像。
其中,基于链接信息,展示目标图像对应的搜索结果页面,具体可以包括:获取该链接信息对应的页面(即目标图像的来源页面)中的文本信息(即源文本内容),然后,对源文本内容进行概括,得到源文本内容的摘要信息,并获取发布源文本内容的业务服务账号的信息,从而得到来源页面对应的内容描述信息,基于来源页面的内容描述信息,展示目标图像的搜索结果页面。
可选地,本实施例,步骤“展示所述目标图像对应的搜索结果页面”,可以包括:
从所述目标图像中提取关键文本内容;
根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容;
基于所述源文本内容,展示所述目标图像对应的搜索结果页面。
其中,基于所述源文本内容,展示所述目标图像对应的搜索结果页面,具体可以包括:对源文本内容进行概括,得到源文本内容的摘要信息,并获取发布源文本内容的业务服务账号的信息,从而得到来源页面对应的内容描述信息,基于来源页面的内容描述信息,展示目标图像的搜索结果页面。
可选地,本实施例,步骤“从所述目标图像中提取关键文本内容”,可以包括:
对所述目标图像进行文本识别,得到所述目标图像的文本内容,所述文本内容包括至少一个文本段;
对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段;
基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容。
其中,目标图像包含有文字信息外的内容,需要对其进行文本识别,来提取出目标图像中的文本内容。在一实施例中,可以通过光学字符识别(Optical CharacterRecognition,OCR)来对目标图像进行文本识别,得到目标图像的文本内容。
例如,参考图1c,为目标图像的关键文本内容的提取流程。首先,可以通过光学字符识别OCR对目标图像进行文本提取,得到目标图像的文本内容,然后,可以根据目标图像中文本的文字分布进行版面分析,根据文本内容在图片上的空间位置对文本内容进行段落切分,得到目标图像对应的文本内容的至少一个文本段。接着,再从至少一个文本段中选取目标文本段作为关键段落,最后,对提取到的关键段落进行段落简化处理,得到目标图像的关键文本内容。
可选地,本实施例,步骤“对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段”,可以包括:
针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数;
将所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数;
根据各个文本段的目标重要性参数,从各个文本段中选取目标文本段。
其中,各文本单元的重要性参数的融合方式有多种,本实施例对此不作限制。比如可以是加权融合、平均运算等。
其中,步骤“将所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数”,可以包括:
确定所述文本段中各文本单元对应的权重;
根据所述权重,对所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数。
其中,文本段中各文本单元对应的权重可以根据实际情况进行设置,本实施例对此不作限制。比如,可以根据其在文本段中的位置进行确定。
其中,步骤“根据各个文本段的目标重要性参数,从各个文本段中选取目标文本段”,可以包括:
将目标重要性参数最大的文本段作为目标文本段。
其中,目标文本段也即目标图像中文本内容的关键文本段落。
一些实施例中,也可以将目标重要性参数大于预设值的文本段作为目标文本段,该预设值可以根据实际情况进行设置。
可选地,本实施例,步骤“针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数”,可以包括:
针对每个文本段中的各个文本单元,对所述文本单元在所述文本段中出现的频次进行统计,得到所述文本单元在所述文本段中的权重;
对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;
根据所述文本单元的参考权重、以及在所述文本段中的权重,确定所述文本单元的重要性参数。
其中,可以先对文本段进行分词处理,得到文本段的各个文本单元。一些实施例中,还可以对文本段中的文本单元进行过滤处理。具体地,该过滤处理可以包括对分词后的文本段去除停用词、空格、标点等无意义的文本单元。可以理解的是,过滤的文本单元也可根据应用场景自定义添加,本实施例对此不作限制。文本单元具体可以是一个字,也可以是一个词。
其中,停用词可以根据实际情况进行设置,它可以根据业务需要,选择对指定的词语和字符进行过滤。例如,可以指定一些常见的词语为停用词,对这些常见的词语进行过滤。
其中,文本单元在文本段中出现的频次具体即该文本单元在文本段中的词频。具体地,在给定一个文档里,词频(term frequency,tf)指的是某一个给定的词语在该文档中出现的频率,这是对词数的归一化,以防止它偏向长的文件。对于在某一文档dj里的词语ti来说,其词频的计算方式如式子(1)所示:
Figure BDA0003155185710000151
式子中ni,j是词语ti在文档dj中的出现次数,而分母则是在文档dj中所有字词的出现次数之和,k表示文档dj中不同字词的个数,tfi,j表示词语ti在文档dj中的词频。本实施例中,文档dj具体可以是文本段,可以将文本单元在文本段中的词频tfi,j直接作为文本单元在该文本段中的权重。
其中,样本文本可以是语料库中的文本,文本单元的参考权重具体可以用逆文本频率来表示。逆向文件频率(inverse document frequency,idf)是一个词语普遍重要性的度量。某个文本单元的逆文本频率表征其在语料库中出现的频率,其计算方式如式子(2)所示:
Figure BDA0003155185710000161
其中,文本单元的逆文本频率,可以由语料库中的总文档数目除以包含该文本单元的文档的数目,再将得到的商取以10为底的对数得到。
其中,|D|表示使用的语料库的文档总数,|{j:ti∈dj}|为包含文本单元ti的文档数目,idfi为文本单元ti的逆文本频率。一些实施例中,语料库中每个文档可以为一张截图经过OCR后的字符串文本,同一个截图的文字归为一个文档。
可选地,步骤“根据所述文本单元的参考权重、以及在所述文本段中的权重,确定所述文本单元的重要性参数”,可以包括:
将所述文本单元的参考权重、以及在所述文本段中的权重进行融合,得到所述文本单元的重要性参数。
其中,融合方式可以有很多种,比如,该融合方式可以是相乘等,本实施例对此不作限制。具体地,文本单元的重要性参数可以由该文本单元的词频tf和逆文本频率idf二者乘积得到,该重要性参数可以用tf-idf表示。
tf-idf的全称为Term Frequency-Inverse Document Frequency,即词频-逆文本频率,它是一种用于信息检索与文本挖掘的常用加权技术。tf-idf是一种统计方法,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度。字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
例如,对于文本段dj的文本单元ti,其重要性参数tf-idf计算如式子(3)所下:
tfidfi,j=tfi,j×idfi (3)
式子(3)表示为文本段内该文本单元的频率乘上该文本单元在语料库中的逆文本频率。tfidfi,j表示文本段dj中的文本单元ti的重要性参数。
其中,某一词语在特定段落内的高词频,以及该词语在整个文档集中的低文档频率,可以产生出高权重的tf-idf。因此,tf-idf倾向于过滤掉常见的词语,保留重要的词语。
本实施例中,若文本段dj中的文本单元ti的重要性参数为tfidfi,j,则文本段j的目标重要性参数可以是该文本段中各文本单元的tfidf之和,如式子(4)所示:
PSj=∑Ltfidfi,j (4)
其中,L为文本段j中不同文本单元的个数,PSj为文本段j的目标重要性参数。
可选地,可以选出目标重要性参数最大的文本段作为目标文本段,如式子(5)所示:
m=argmax(PS) (5)
其中,PS为各文本段的目标重要性参数,m为目标重要性参数中的最大值。argmax表示一种对函数求参数(集合)的函数,具体地,argmax(f(x))是使得f(x)取得最大值所对应的变量点x(或x的集合)。
长文本的表达通常较为复杂,难以被为搜索引擎理解,从而降低源文本召回的精度。为了减少来自长文本的噪声,提高搜索准确率,本申请需要对目标文本段进一步进行简化。
具体地,可以通过无向图的textrank(文本等级算法)来简化目标文本段。textrank是通过文本句之间的关系构建网络,将一个文本句视为一个节点,然后迭代计算每个节点的权重,根据权重对各文本句进行排序,从而得到关键文本句。
可选地,本实施例,步骤“基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容”,可以包括:
针对所述目标文本段中各文本句,计算所述文本句与各参考文本句之间的相似度,所述参考文本句为所述目标文本段中除所述文本句外的其他文本句;
设置所述目标文本段中各文本句的初始权重;
根据所述相似度,对所述目标文本段中各文本句的初始权重进行迭代运算,得到所述目标文本段中各文本句的权重;
根据所述权重,从所述目标文本段的各文本句中选取目标文本句作为所述目标图像的关键文本内容。
其中,可以根据标点符号,将目标文本段切分为各文本句,具体可以将目标文本段切分成文本句S=[S1,S2,...,Sls],其中,ls为目标文本段的句子数目,S表示目标文本段中文本句对应的集合,S1,S2,...,Sls分别表示目标文本段中各文本句。
其中,文本句与各参考文本句之间的相似度的计算方式有多种,本实施例对此不作限制。
比如,可以计算文本句的语义特征向量和参考文本句的语义特征向量之间的向量距离,根据向量距离,确定文本句和参考文本句的相似度,其中该向量距离可以是余弦距离、欧式距离等;向量距离越大,则文本句和参考文本句的相似度越小;反之,向量距离越小,文本句和参考文本句的相似度越大。
又比如,可以通过杰卡德相似度(Jaccard Similarity)来进行计算文本句和参考文本句之间的相似度。其中,杰卡德相似度的计算方式如式子(6)所示:
Figure BDA0003155185710000181
其中,文本句Si的文本单元集合为
Figure BDA0003155185710000182
Ni为文本句Si中文本单元的个数,文本句Sj的文本单元集合为
Figure BDA0003155185710000183
Nj为文本句Sj中文本单元的个数,JSim(Si,Sj)表示文本句Si和文本句Sj之间的相似度。|{wk|wk∈Si&wk∈Sj}|表示同时属于文本句Si和文本句Sj的文本单元的个数,具体也可以理解为文本句Si的文本单元集合和文本句Sj的文本单元集合的交集中文本单元的数量,|Si|表示文本句Si的文本单元集合中文本单元的数量,|Sj|表示文本句Sj的文本单元集合中文本单元的数量。
可选地,本实施例中,可以基于计算得到的目标文本段中各文本句与其他文本句之间的相似度,构建目标文本段内文本句的相似度矩阵E,进而根据相似度矩阵E构建句子图G=(V,E),其中,V表示目标文本段中文本句的权重,V的每个文本句的初始权重可以设置为1。
在句子图中,可以将目标文本段的各个文本句看作各个节点,用句子对(即两个文本句)之间的相似度作为边的权值,相似度为0的权值也为0,相当于这个句子对没有边。
其中,对目标文本段中各文本句的初始权重进行迭代运算,得到目标文本段中各文本句的权重,具体可以通过下式(7)进行迭代:
Figure BDA0003155185710000191
其中,式子(7)表示迭代计算目标文本段中各文本句的权重WS,直到本次迭代产生的WS平均误差小于预设值,该预设值可以根据实际情况进行设置,如该预设值可以为0.0001。
其中,Vi表示第i个节点,Vj表示第j个节点,d表示阻尼系数(代表图中某一节点指向其他任意节点的概率),In(Vi)表示指向Vi节点的节点集合,Out(Vj)为从Vj节点指出的节点集合,WS(Vi)表示节点Vi的权重。JSimji表示节点Vi到节点Vj的边的权值,也即文本句Si和文本句Sj之间的相似度。
根据迭代得到的每个文本句的最终的权重,选出权重最高的文本句作为目标文本段的关键句,由此简化目标文本段。
可选地,步骤“根据所述权重,从所述目标文本段的各文本句中选取目标文本句作为所述目标图像的关键文本内容”,可以包括:
将所述目标文本段中权重最高的文本句选取为目标文本句,得到所述目标图像的关键文本内容。
可选地,本实施例,步骤“根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容”,可以包括:
对所述关键文本内容进行语义分析,得到所述关键文本内容的语义特征信息;
计算所述关键文本内容的语义特征信息和候选文本内容的语义特征信息之间的相似度;
根据所述相似度,从所述候选文本内容中选取源文本内容。
其中,可选地,在对关键文本内容进行语义分析前,可以先对关键文本内容进行分词处理,得到分词后的关键文本内容,记为query。然后,可以对分词后的关键文本内容进行实体分析、同义词分析、意图分析等操作,充分挖掘语义信息和潜在的搜索意图。
具体地,对关键文本内容进行语义分析,可以识别出对应的实体、同义词、停用词、隐含地域等信息,构建出语法树,以及各个特征维度的数据。语法树可以从倒排索引中,高效地检索出源文本内容。
例如,假设关键文本内容为“苹X手机回收”,而“苹X手机”同义词为“xphone”,则可以构建出如图1d所示的语法树。图1d中,“and(和)”节点表示召回的源文本内容中需要包含其两个子节点的内容,“or(或)”节点表示召回的源文本内容中包含其中一个子节点即可。比如,节点4表示召回的源文本内容中需要包含“苹X”和“手机”两个词;节点2表示召回的源文本中,要么同时包含“苹X”和“手机”,要么包含“xphone”。
其中,可以通过预先训练好的FastText(快速文本)、XGBoost等模型,分析query的潜在意图,如医学类、旅游类、汽车类等意图。每个意图大类下,还会有众多细分意图,例如,医疗类意图下,会分为医生、医院、疾病、药品、医疗器械、保健养生、医美等子类别。获取到关键文本内容的语义意图后,将优先从对应分类的候选文本内容中搜索结果,提高准确率。
其中,X-gboost(eXtreme Gradient Boosting)即极端梯度提升树模型,它是一个优化的分布式梯度增强库,源于梯度提升框架,但是更加高效,因为X-gboost算法能并行计算、近似建树、对稀疏数据有效处理以及内存使用优化。
其中,步骤“计算所述关键文本内容的语义特征信息和候选文本内容的语义特征信息之间的相似度”,可以包括:
计算所述关键文本内容的语义特征向量和候选文本内容的语义特征向量之间的向量距离;
根据所述向量距离,确定关键文本内容和候选文本内容之间的相似度。
其中,该向量距离可以是余弦距离,也可以是欧式距离等。向量距离可以用来表征相似度,向量距离越大,相似度越小;反之,向量距离越小,相似度越大。
其中,可以分别对关键文本内容和候选文本内容进行特征提取,来得到所述关键文本内容的语义特征向量和候选文本内容的语义特征向量。
一些实施例中,在计算得到关键文本内容和候选文本内容之间的相似度后,可以将与关键文本内容的相似度大于预设相似度阈值的候选文本内容选取为源文本内容,该预设相似度阈值可以根据实际情况进行设置。
另一些实施例,可以基于关键文本内容和候选文本内容之间的相似度,对候选文本内容进行排序,如按照相似度从大到小进行排序,得到排序后候选文本内容,可以选取排序后候选文本内容的前n个候选文本内容作为源文本内容。
可选地,本实施例,步骤“根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容”,可以包括:
对候选文本内容进行质量分析,得到所述候选文本内容的内容质量信息;
根据所述关键文本内容与候选文本内容之间的相似度、以及所述候选文本内容的内容质量信息,从所述候选文本内容中选取源文本内容。
其中,质量分析的维度可以包括候选文本内容的专业度、原创度以及用户关注度等,其中,用户关注度表征候选文本内容对用户的吸引力。候选文本内容的内容质量信息可以是候选文本内容的各个维度的质量分析结果综合得到的。
一些实施例中,可以先基于候选文本内容的内容质量信息,从候选文本内容中选取候选优质文本内容,再根据关键文本内容与候选优质文本内容的相似度,从候选优质文本内容中选取源文本内容。
可以理解的是,上述实施例中的候选文本内容可以是来自于该客户端的业务服务账号发布的内容,也可以是第三方HTML5(HyperText Markup Language5,第五代超文本标记语言)页面类文章,本实施例对此不作限制。
本申请中,对于候选文本内容的语义特征信息,可以使用在线检索系统进行源文本搜索,也可以使用离线分析系统,本实施例对此不作限制。
对于离线分析系统,离线系统已经对海量的文章数据进行了分析,对于每篇文章,会具体到词语粒度来抽取特征,建立索引,还会计算文章的权威度分数和质量分数等数据。每篇文章可以是一个候选文本内容。
具体地,离线分析系统可以在每篇文章发布后,会先对其进行离线分析,这个过程和在线检索是各自独立的。离线分析等价于先验知识抽取,然后再将这些知识传递到在线系统,用于提升文章搜索的效果。本实施例中,可以进行两方面的工作:“离线文本分析”和“离线质量分析”。
离线文本分析,主要是对文章数据建立倒排索引和正排索引,用以加速在线检索时的召回速度和精度,同时,还需要对文本所属的主题进行分类。
离线质量分析,则是判断每篇文章的权威度,同时计算出一个质量分数。例如,如果一个公众号具有大量的关注者,每天有远高于平均水平的阅读量,则其发布的文章,更可能被判断为具有较高的权威度。本申请还可以识别出广告、活动类文章,赋予其一个较低的质量分数,从而降低其最终的排序位置,甚至不会被召回。
可选地,在线检索系统采用分层设计,如图1e所示,可以抽象为预处理层、召回层、特征适配层、排序层、摘要层、应答层,各个层的功能设计如下:
预处理层可以负责获取关键文本内容分析后的语义和意图信息等。召回层可以负责调用不同渠道的数据源,获取各渠道的数据源对应的检索文章结果(也即不同渠道的候选文本内容)。
比如,召回层可以调用三个渠道的数据源,数据源1的候选文本内容可以是来自该客户端的业务服务账号发布的内容,数据源2的候选文本内容可以是第三方HTML5页面类文章,数据源3的候选文本内容可以是某官网上发布的内容。
特征适配层可以负责将不同数据源的候选文本内容的特征数据进行统一抽取转化,交给排序层排序。由于不同渠道的候选文本内容的格式可能不同,因此需要对其进行统一抽取转化,以实现统一的提取逻辑。
排序层可以负责基于候选文本内容和关键文本内容的相似度,对不同数据源的候选文本内容进行排序,此外,文章质量好、相关性好的候选文本内容可以优先展现。摘要层可以负责对排序后候选文本内容,取摘要(标题、正文、作者等)用于展现。应答层可以负责构造最终结果,交给前端展现。
其中,一些实施例中,对于不同数据源分析得到的目标图像的源文本内容,还可以从中选取最佳的源文本内容进行展示。
本申请可以基于在线和离线系统的数据,召回候选文本内容,然后根据关键文本内容和候选文本内容的匹配程度,来进行排序,最终得到目标图像对应的源文本内容。
103、响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
其中,对内容描述信息的触发操作具体可以是对内容描述信息的点击操作,本实施例对此不作限制。
可选地,本实施例,所述来源页面还包括发布所述源文本内容的业务服务账号的属性信息。
其中,业务服务账号的属性信息可以包括业务服务账号的名称等。
可选地,本实施例,该搜索方法还可以包括响应于对所述业务服务账号的关联操作,建立所述客户端对应的目标用户账号与所述业务服务账号之间的关联关系。
其中,对业务服务账号的关联操作可以是对业务服务账号相应的关注控件的点击操作等。在建立目标用户账号和业务服务账号之间的关联关系后,业务服务账号可以为用户提供相应的业务服务。
在一具体实施例中,如图1f所示,在一即时通讯客户端中,可以对图像信息页面中的目标图像(具体可以通过对某文章的内容页面截取得到)进行操作,如长按操作,响应于对目标图像的操作,可以在图像信息页面上展示该目标图像的功能操作列表,该功能操作列表包括搜索控件,搜索控件如图1f中页面1所示的“搜一搜”对应的图标,响应于对该搜索控件的触发操作,如点击操作,且目标图像包含文本内容时,可以展示该目标图像的搜索结果页面,搜索结果页面如图1f中页面2所示,该搜索结果页面展示了检索到的目标图像精准对应的源文本内容的内容描述信息,该内容描述信息可以包括源文本内容的摘要信息以及发布源文本内容的业务服务账号的属性信息(如名称)。此外,还可以对内容描述信息进行触发操作,如点击操作,展示其对应的来源页面,该来源页面包括目标图像的源文本内容,也即目标图像中文本内容对应的完整文章内容,参考图1f中页面3展示的内容。
由上可知,本实施例可以展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问,提升了用户的信息获取效率。
根据前面实施例所描述的方法,以下将以该搜索装置具体集成在终端举例作进一步详细说明。
本申请实施例提供一种搜索方法,如图2所示,该搜索方法的具体流程可以如下:
201、终端展示客户端的图像信息页面,所述图像信息页面包括目标图像。
本实施例中,该客户端可以是应用程序客户端,也可以是浏览器客户端,本实施例对此不作限制。比如,该客户端可以为即时通讯应用。
其中,图像信息页面为呈现目标图像的页面,它具体可以是聊天会话页面,也可以是信息交互页面等。
202、终端响应于针对所述目标图像的操作,在所述图像信息页面上展示功能操作列表,所述功能操作列表包括搜索控件。
其中,对目标图像的操作可以根据实际情况进行设置,本实施例对此不作限制。比如该操作可以是对目标图像的按压操作,当检测到对目标图像的按压时长超过预设时间,可以在图像信息页面上展示功能操作列表。功能操作列表可以包括对目标图像的各种类型操作对应的控件,如功能操作列表可以包括收藏控件、搜索控件、发送控件以及编辑控件等。
203、终端响应于针对所述搜索控件的触发操作、且所述目标图像包含文本内容时,从所述目标图像中提取关键文本内容;根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容。
其中,对搜索控件的触发操作具体可以是对搜索控件的点击操作等,本实施例对此不作限制。
可选地,本实施例,步骤“从所述目标图像中提取关键文本内容”,可以包括:
对所述目标图像进行文本识别,得到所述目标图像的文本内容,所述文本内容包括至少一个文本段;
对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段;
基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容。
其中,目标图像包含有文字信息外的内容,需要对其进行文本识别,来提取出目标图像中的文本内容。在一实施例中,可以通过光学字符识别(Optical CharacterRecognition,OCR)来对目标图像进行文本识别,得到目标图像的文本内容。
可选地,本实施例,步骤“对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段”,可以包括:
针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数;
将所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数;
根据各个文本段的目标重要性参数,从各个文本段中选取目标文本段。
其中,各文本单元的重要性参数的融合方式有多种,本实施例对此不作限制。比如可以是加权融合、平均运算等。
可选地,本实施例,步骤“针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数”,可以包括:
针对每个文本段中的各个文本单元,对所述文本单元在所述文本段中出现的频次进行统计,得到所述文本单元在所述文本段中的权重;
对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;
根据所述文本单元的参考权重、以及在所述文本段中的权重,确定所述文本单元的重要性参数。
长文本的表达通常较为复杂,难以被为搜索引擎理解,从而降低源文本召回的精度。为了减少来自长文本的噪声,提高搜索准确率,本申请需要对目标文本段进一步进行简化。
具体地,可以通过无向图的textrank(文本等级算法)来简化目标文本段。textrank是通过文本句之间的关系构建网络,将一个文本句视为一个节点,然后迭代计算每个节点的权重,根据权重对各文本句进行排序,从而得到关键文本句。
可选地,本实施例,步骤“基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容”,可以包括:
针对所述目标文本段中各文本句,计算所述文本句与各参考文本句之间的相似度,所述参考文本句为所述目标文本段中除所述文本句外的其他文本句;
设置所述目标文本段中各文本句的初始权重;
根据所述相似度,对所述目标文本段中各文本句的初始权重进行迭代运算,得到所述目标文本段中各文本句的权重;
根据所述权重,从所述目标文本段的各文本句中选取目标文本句作为所述目标图像的关键文本内容。
204、终端基于所述源文本内容,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容。
其中,来源页面为所述目标图像中文本内容来源的页面。具体地,目标图像可以是用户浏览内容页面中的某文章时对该内容页面进行截取得到的,则目标图像的来源页面也即展示这篇文章的内容页面。
其中,源文本内容具体也是搜索到的所述目标图像的来源页面中的文本内容,即源文本内容为目标图像中文本内容的来源文本。
可选地,本实施例,所述内容描述信息包括发布所述源文本内容的业务服务账号的信息和所述源文本内容的摘要信息。
其中,基于所述源文本内容,展示所述目标图像对应的搜索结果页面,具体可以包括:对源文本内容进行概括,得到源文本内容的摘要信息,并获取发布源文本内容的业务服务账号的信息,从而得到来源页面对应的内容描述信息,基于来源页面的内容描述信息,展示目标图像的搜索结果页面。
205、终端响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
可选地,本实施例,所述来源页面包括所述源文本内容中与所述目标图像中文本内容关联的关联文本内容、以及所述目标图像中文本内容。
其中,目标图像可以是用户在浏览内容页面中的文章时对内容页面进行截取到的,这样截取到的通常只是文章的一部分内容,而没有截取到这部分内容的上下文内容。因此,对于目标图像的源文本内容,它可以包括目标图像中的文本内容,还可以包括目标图像中文本内容的上下文内容。
其中,关联文本内容具体可以是目标图像中文本内容在源文本内容中的上下文内容。
由上可知,本实施例可以通过终端展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的操作,在所述图像信息页面上展示功能操作列表,所述功能操作列表包括搜索控件;响应于针对所述搜索控件的触发操作、且所述目标图像包含文本内容时,从所述目标图像中提取关键文本内容;根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容;基于所述源文本内容,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问。
为了更好地实施以上方法,本申请实施例还提供一种搜索装置,如图3所示,该搜索装置可以包括图像展示单元301、搜索结果展示单元302和源文本展示单元303,如下:
(1)图像展示单元301;
图像展示单元301,用于展示客户端的图像信息页面,所述图像信息页面包括目标图像。
可选的,在本申请的一些实施例中,所述图像展示单元可以包括页面展示子单元和图像展示子单元,如下:
所述页面展示子单元,用于展示客户端的内容交互页面,所述内容交互页面包括所述客户端中用户的动态交互信息,所述动态交互信息包括所述目标图像;
图像展示子单元,用于响应于对所述目标图像的查看操作,展示图像信息页面。
可选的,在本申请的一些实施例中,所述页面展示子单元,还可以用于展示客户端中目标会话的消息会话页面,所述消息会话页面包括所述目标会话中成员发送的目标图像;
所述图像展示子单元,还可以用于响应于对所述目标图像的查看操作,展示图像信息页面。
(2)搜索结果展示单元302;
搜索结果展示单元302,用于响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容。
可选的,在本申请的一些实施例中,所述来源页面包括所述源文本内容中与所述目标图像中文本内容关联的关联文本内容、以及所述目标图像中文本内容。
可选的,在本申请的一些实施例中,所述搜索结果展示单元可以包括操作列表展示子单元和搜索结果展示子单元,如下:
所述操作列表展示子单元,用于响应于针对所述目标图像的操作,在所述图像信息页面上展示功能操作列表,所述功能操作列表包括搜索控件;
搜索结果展示子单元,用于响应于针对所述搜索控件的触发操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述内容描述信息包括发布所述源文本内容的业务服务账号的信息和所述源文本内容的摘要信息。
可选的,在本申请的一些实施例中,所述目标图像携带有所述目标图像对应的来源页面的链接信息;
所述搜索结果展示单元可以包括解析子单元和第一展示子单元,如下:
所述解析子单元,用于对所述目标图像进行解析,得到所述目标图像对应的来源页面的链接信息;
第一展示子单元,用于基于所述链接信息,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述搜索结果展示单元可以包括特征提取子单元、获取子单元和第二展示子单元,如下:
所述特征提取子单元,用于对所述目标图像进行特征提取,得到所述目标图像的视觉特征信息;
获取子单元,用于根据所述视觉特征信息和预设映射关系集合,获取所述目标图像对应的来源页面的链接信息,所述预设映射关系集合包括预设文本图像的视觉特征信息和预设文本图像对应的来源页面的链接信息之间的映射关系;
第二展示子单元,用于基于所述链接信息,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述搜索结果展示单元可以包括文本提取子单元、选取子单元和第三展示子单元,如下:
所述文本提取子单元,用于从所述目标图像中提取关键文本内容;
选取子单元,用于根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容;
第三展示子单元,用于基于所述源文本内容,展示所述目标图像对应的搜索结果页面。
可选的,在本申请的一些实施例中,所述文本提取子单元具体可以用于对所述目标图像进行文本识别,得到所述目标图像的文本内容,所述文本内容包括至少一个文本段;对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段;基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容。
可选的,在本申请的一些实施例中,步骤“对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段”,可以包括:
针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数;
将所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数;
根据各个文本段的目标重要性参数,从各个文本段中选取目标文本段。
可选的,在本申请的一些实施例中,步骤“针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数”,可以包括:
针对每个文本段中的各个文本单元,对所述文本单元在所述文本段中出现的频次进行统计,得到所述文本单元在所述文本段中的权重;
对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;
根据所述文本单元的参考权重、以及在所述文本段中的权重,确定所述文本单元的重要性参数。
可选的,在本申请的一些实施例中,步骤“基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容”,可以包括:
针对所述目标文本段中各文本句,计算所述文本句与各参考文本句之间的相似度,所述参考文本句为所述目标文本段中除所述文本句外的其他文本句;
设置所述目标文本段中各文本句的初始权重;
根据所述相似度,对所述目标文本段中各文本句的初始权重进行迭代运算,得到所述目标文本段中各文本句的权重;
根据所述权重,从所述目标文本段的各文本句中选取目标文本句作为所述目标图像的关键文本内容。
可选的,在本申请的一些实施例中,所述选取子单元具体可以用于对所述关键文本内容进行语义分析,得到所述关键文本内容的语义特征信息;计算所述关键文本内容的语义特征信息和候选文本内容的语义特征信息之间的相似度;根据所述相似度,从所述候选文本内容中选取源文本内容。
可选的,在本申请的一些实施例中,所述选取子单元具体可以用于对候选文本内容进行质量分析,得到所述候选文本内容的内容质量信息;根据所述关键文本内容与候选文本内容之间的相似度、以及所述候选文本内容的内容质量信息,从所述候选文本内容中选取源文本内容。
(3)源文本展示单元303;
源文本展示单元303,用于响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
可选的,在本申请的一些实施例中,所述来源页面还包括发布所述源文本内容的业务服务账号的属性信息。
可选的,在本申请的一些实施例中,所述源文本展示单元还可以包括建立子单元,如下:
所述建立子单元,用于响应于对所述业务服务账号的关联操作,建立所述客户端对应的目标用户账号与所述业务服务账号之间的关联关系。
由上可知,本实施例可以通过图像展示单元301展示客户端的图像信息页面,所述图像信息页面包括目标图像;通过搜索结果展示单元302响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;通过源文本展示单元303响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问。
本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。本申请可以简化对目标图像进行源文本搜索的操作,实现了对目标图像中文本内容的来源文本的快捷访问。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种搜索方法中的步骤。例如,该指令可以执行如下步骤:
展示客户端的图像信息页面,所述图像信息页面包括目标图像;响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;响应于针对内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种搜索方法中的步骤,因此,可以实现本申请实施例所提供的任一种搜索方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述源文本搜索方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种搜索方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种搜索方法,其特征在于,包括:
展示客户端的图像信息页面,所述图像信息页面包括目标图像;
响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;
响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
2.根据权利要求1所述的方法,其特征在于,所述来源页面包括所述源文本内容中与所述目标图像中文本内容关联的关联文本内容、以及所述目标图像中文本内容。
3.根据权利要求1所述的方法,其特征在于,所述展示客户端的图像信息页面,包括:
展示客户端的内容交互页面,所述内容交互页面包括所述客户端中用户的动态交互信息,所述动态交互信息包括所述目标图像;
响应于对所述目标图像的查看操作,展示图像信息页面。
4.根据权利要求1所述的方法,其特征在于,所述展示客户端的图像信息页面,包括:
展示客户端中目标会话的消息会话页面,所述消息会话页面包括所述目标会话中成员发送的目标图像;
响应于对所述目标图像的查看操作,展示图像信息页面。
5.根据权利要求1所述的方法,其特征在于,所述响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,包括:
响应于针对所述目标图像的操作,在所述图像信息页面上展示功能操作列表,所述功能操作列表包括搜索控件;
响应于针对所述搜索控件的触发操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面。
6.根据权利要求1所述的方法,其特征在于,所述来源页面还包括发布所述源文本内容的业务服务账号的属性信息。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
响应于对所述业务服务账号的关联操作,建立所述客户端对应的目标用户账号与所述业务服务账号之间的关联关系。
8.根据权利要求1所述的方法,其特征在于,所述内容描述信息包括发布所述源文本内容的业务服务账号的信息和所述源文本内容的摘要信息。
9.根据权利要求1所述的方法,其特征在于,所述目标图像携带有所述目标图像对应的来源页面的链接信息;
所述展示所述目标图像对应的搜索结果页面,包括:
对所述目标图像进行解析,得到所述目标图像对应的来源页面的链接信息;
基于所述链接信息,展示所述目标图像对应的搜索结果页面。
10.根据权利要求1所述的方法,其特征在于,所述展示所述目标图像对应的搜索结果页面,包括:
对所述目标图像进行特征提取,得到所述目标图像的视觉特征信息;
根据所述视觉特征信息和预设映射关系集合,获取所述目标图像对应的来源页面的链接信息,所述预设映射关系集合包括预设文本图像的视觉特征信息和预设文本图像对应的来源页面的链接信息之间的映射关系;
基于所述链接信息,展示所述目标图像对应的搜索结果页面。
11.根据权利要求1所述的方法,其特征在于,所述展示所述目标图像对应的搜索结果页面,包括:
从所述目标图像中提取关键文本内容;
根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容;
基于所述源文本内容,展示所述目标图像对应的搜索结果页面。
12.根据权利要求11所述的方法,其特征在于,所述从所述目标图像中提取关键文本内容,包括:
对所述目标图像进行文本识别,得到所述目标图像的文本内容,所述文本内容包括至少一个文本段;
对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段;
基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容。
13.根据权利要求12所述的方法,其特征在于,所述对所述文本段进行段落重要性统计分析,以从所述文本段中选取目标文本段,包括:
针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数;
将所述文本段中各文本单元的重要性参数进行融合,得到所述文本段的目标重要性参数;
根据各个文本段的目标重要性参数,从各个文本段中选取目标文本段。
14.根据权利要求13所述的方法,其特征在于,所述针对每个文本段,对所述文本段中各文本单元进行频次分析,得到所述文本段中各文本单元的重要性参数,包括:
针对每个文本段中的各个文本单元,对所述文本单元在所述文本段中出现的频次进行统计,得到所述文本单元在所述文本段中的权重;
对所述文本单元在样本文本中出现的频次进行统计,得到所述文本单元的参考权重;
根据所述文本单元的参考权重、以及在所述文本段中的权重,确定所述文本单元的重要性参数。
15.根据权利要求12所述的方法,其特征在于,所述基于所述目标文本段中各文本句的权重,从所述目标文本段中提取所述目标图像的关键文本内容,包括:
针对所述目标文本段中各文本句,计算所述文本句与各参考文本句之间的相似度,所述参考文本句为所述目标文本段中除所述文本句外的其他文本句;
设置所述目标文本段中各文本句的初始权重;
根据所述相似度,对所述目标文本段中各文本句的初始权重进行迭代运算,得到所述目标文本段中各文本句的权重;
根据所述权重,从所述目标文本段的各文本句中选取目标文本句作为所述目标图像的关键文本内容。
16.根据权利要求11所述的方法,其特征在于,所述根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容,包括:
对所述关键文本内容进行语义分析,得到所述关键文本内容的语义特征信息;
计算所述关键文本内容的语义特征信息和候选文本内容的语义特征信息之间的相似度;
根据所述相似度,从所述候选文本内容中选取源文本内容。
17.根据权利要求11所述的方法,其特征在于,所述根据所述关键文本内容与候选文本内容之间的相似度,从所述候选文本内容中选取源文本内容,包括:
对候选文本内容进行质量分析,得到所述候选文本内容的内容质量信息;
根据所述关键文本内容与候选文本内容之间的相似度、以及所述候选文本内容的内容质量信息,从所述候选文本内容中选取源文本内容。
18.一种搜索装置,其特征在于,包括:
图像展示单元,用于展示客户端的图像信息页面,所述图像信息页面包括目标图像;
搜索结果展示单元,用于响应于针对所述目标图像的搜索操作、且所述目标图像包含文本内容时,展示所述目标图像对应的搜索结果页面,所述搜索结果页面包括至少一个来源页面的内容描述信息,所述来源页面为呈现源文本内容的页面,所述源文本内容为所述目标图像中文本内容的源文本内容;
源文本展示单元,用于响应于针对所述内容描述信息的触发操作,展示所述内容描述信息对应的来源页面,所述来源页面包括所述源文本内容。
19.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至17任一项所述的搜索方法中的操作。
20.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至17任一项所述的搜索方法中的步骤。
CN202110775715.4A 2021-07-09 2021-07-09 搜索方法、装置、电子设备和存储介质 Pending CN113821669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110775715.4A CN113821669A (zh) 2021-07-09 2021-07-09 搜索方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110775715.4A CN113821669A (zh) 2021-07-09 2021-07-09 搜索方法、装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN113821669A true CN113821669A (zh) 2021-12-21

Family

ID=78912626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110775715.4A Pending CN113821669A (zh) 2021-07-09 2021-07-09 搜索方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN113821669A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216308A (zh) * 2023-11-09 2023-12-12 天津华来科技股份有限公司 基于大模型的搜索方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117216308A (zh) * 2023-11-09 2023-12-12 天津华来科技股份有限公司 基于大模型的搜索方法、系统、设备及介质
CN117216308B (zh) * 2023-11-09 2024-04-26 天津华来科技股份有限公司 基于大模型的搜索方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
Giannoulakis et al. Evaluating the descriptive power of Instagram hashtags
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
Li et al. Mining opinion summarizations using convolutional neural networks in Chinese microblogging systems
CN105608477B (zh) 一种人物画像与职位匹配的方法及系统
CN111767403B (zh) 一种文本分类方法和装置
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN109271518B (zh) 用于对微博信息进行分类显示的方法和设备
CN111401045B (zh) 一种文本生成方法、装置、存储介质和电子设备
US10482146B2 (en) Systems and methods for automatic customization of content filtering
WO2011126458A1 (en) Automatic frequently asked question compilation from community-based question answering archive
CN111475729A (zh) 搜索内容推荐方法及装置
US20140379719A1 (en) System and method for tagging and searching documents
WO2020123689A1 (en) Suggesting text in an electronic document
CN112052356A (zh) 多媒体分类方法、装置和计算机可读存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
CN115795030A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112231554A (zh) 一种搜索推荐词生成方法、装置、存储介质和计算机设备
WO2022269510A1 (en) Method and system for interactive searching based on semantic similarity of semantic representations of text objects
CN113821669A (zh) 搜索方法、装置、电子设备和存储介质
Wu et al. Typical opinions mining based on Douban film comments in animated movies
CN114255067A (zh) 数据定价方法和装置、电子设备、存储介质
CN115130453A (zh) 互动信息生成方法和装置
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN111858901A (zh) 一种基于语义相似的文本推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination