CN113392312A - 信息处理方法、系统及电子设备 - Google Patents

信息处理方法、系统及电子设备 Download PDF

Info

Publication number
CN113392312A
CN113392312A CN202010172304.1A CN202010172304A CN113392312A CN 113392312 A CN113392312 A CN 113392312A CN 202010172304 A CN202010172304 A CN 202010172304A CN 113392312 A CN113392312 A CN 113392312A
Authority
CN
China
Prior art keywords
information
entity
candidate
candidate information
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010172304.1A
Other languages
English (en)
Inventor
袁博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN202010172304.1A priority Critical patent/CN113392312A/zh
Publication of CN113392312A publication Critical patent/CN113392312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Finance (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息处理方法、系统及电子设备。其中,方法包括:获取待识别信息;利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。本实施例提供的技术方案,利用知识图谱中包含有的实体、关系、属性值等特征,对待识别信息(特别是未明确提及实体的信息)进行联想和链接,实现了为隐喻实体信息确定实体的目的,且实体确定准确率高。

Description

信息处理方法、系统及电子设备
技术领域
本申请属于计算机技术领域,尤其涉及一种信息处理方法、系统及电子设备。
背景技术
目前,商品搜索场景中,用户一般通过输入关键词,进行指定商品的搜索。但是由于用户搜索时不一定明确知道待搜商品的名称,因此会在一个时间段内连续输入多个相关属性或者别名,或者在同一次搜索中输入多个属性或者别名的罗列,这样可能导致搜索出的商品不是用户明确想要的商品。
现有技术中,当用户输入的信息不明确时,为用户提供的搜索结果准确度较低。
发明内容
有鉴于此,本申请提供一种信息处理方法、系统及电子设备,以解决现有技术中,基于用户的查询信息为用户提供搜索结果的准确度较低的技术问题。
在本申请的一个实施例中,提供了一种信息处理方法。该方法包括:
获取待识别信息;
利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
在本申请的另一个实施例中,提供了一种信息处理方法,包括:
获取查询信息;
利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述查询信息对应的目标实体;
基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
在本申请的又一个实施例中,提供了一种信息处理方法,包括:
获取待审核信息;
利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;
在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;
根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;
基于所述目标实体,确定所述待审核信息是否通过审核。
在本申请的一个实施例中,提供了一种信息处理系统,包括:
客户端,用于发送待识别信息至服务端;
所述服务端,用于获取待识别信息;利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
在本申请的另一个实施例中,提供了一种信息处理系统,包括:
客户端,用于发送查询信息至服务端;
所述服务端,用于利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述查询信息对应的目标实体;基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果;将所述目标搜索结果发送至所述客户端。
在本申请的又一个实施例中,提供了一种信息处理系统,包括:
客户端,用于发送待审核信息至服务端;
所述服务端,用于获取待审核信息;利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;基于所述目标实体,确定所述待审核信息是否通过审核;将审核结果反馈至所述客户端。
在本申请的一个实施例中,提供了一种电子设备,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取待识别信息;
利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
在本申请的另一个实施例中,提供了一种电子设备,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取查询信息;
利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述查询信息对应的目标实体;
基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
在本申请的又一个实施例中,提供了一种电子设备,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取待审核信息;
利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;
在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;
根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;
基于所述目标实体,确定所述待审核信息是否通过审核。
本申请实施例提供的方案,先利用知识图谱初步确定待识别信息(或待审核信息、或待查询信息)对应的第一候选信息,并在第一候选信息包含属性值候选信息和/或关系候选信息时,从知识图谱中进一步获取与属性值候选信息和/或关系候选信息存在关系的第一实体候选信息;以基于第一实体候选信息确定属性确定待识别信息(或待审核信息、或待查询信息)对应的实体;即本实施例提供的技术方案利用知识图谱中包含有的实体、关系、属性值等特征,对待识别信息进行联想和链接,实现了为隐喻实体信息(即未明确提及实体的信息)确定实体的目的,且实体确定准确率高。另外,对于待审核信息和待查询信息来说,因确定出对应实体准确度高,后续的审核结果和搜索结果的准确度均能得到显著提高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请一实施例提供的信息处理系统的结构示意图;
图2为本申请一实施例提供的信息处理方法的流程示意图;
图3a为本申请一实施例提供的信息处理方法的流程示意图;
图3b为本申请一实施例提供的信息处理方法的流程示意图;
图4a为本申请一实施例提供的信息处理方法的流程示意图;
图4b为本申请一实施例提供的信息处理方法的流程示意图;
图5为本申请一实施例提供的信息处理装置的结构示意图;
图6为本申请一实施例提供的信息处理装置的结构示意图;
图7为本申请一实施例提供的信息处理装置的结构示意图;
图8为本申请一实施例提供的电子设备的结构示意图。
具体实施方式
在介绍本申请各实施例提供的技术方案之前,先对本文中涉及到专有名词进行简单的介绍。
多模态:图像信息、视频信息、语音信息、文本信息等多种感官融合信息的组合即为多模态,每一种信息为一种模态。
实体:在某领域下按照某种粒度划分后从而明确指代某事物。
隐喻实体识别:识别出所给信息中未明确提及但却明确指代的实体。
知识图谱:一种用来描述真实世界中的实体,属性和关系等信息的知识结构,其可视化表现形式为通过节点和边互相连接起来的网状结构。
Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
CNN,Convolutional Neural Networks,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类,因此也被称为“平移不变人工神经网络。
LSTM,Long Short-Term Memory,长短期记忆网络是一种时间循环神经网络,是为了解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。
GCN,图卷积神经网路,为一个特征提取器,它的对象是图数据。
Node2vec,Node2vec算法是用来产生网络中节点向量的模型,输入是网络结构(可以无权重),输出是每个节点的向量;主要思想为:直接导word2vec的包,通过特定的游走方式进行采样,对于每个点都会生成对应的序列。再将这些序列视为文本导入word2vec中的cbow或者skip-gram模型,即可得到每个节点的向量(对应word2vec中每个词的向量)。
OCR,Optical Character Recognition,光学字符识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
LTR,Learning to rank,学习排序是一种监督学习的排序方法。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本申请实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本申请实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于监测”。类似地,取决于语境,短语“如果确定”或“如果监测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当监测(陈述的条件或事件)时”或“响应于监测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
现有技术中,在信息查询领域,多为一些明确实体识别方案,例如:基于已有词库+某些领域内专家规则对待抽取信息中心明确出现的实体进行识别;或基本是通过encoder(各类可作为编码器的神经网络或者传统特征工程方法)+条件随机场(CRF)等各类序列标注方法,对文本中明确出现的实体进行识别。但是,很多搜索场景下,用户搜索词并不会明确包含其意向实体词,因此,当用户输入的信息不明确时,无法为用户提供准确的搜索结果。
本申请旨在解决当单个或多个指代不明确的用户查询信息作为搜索词的情况下,导致搜索结果与用户搜索意愿不符,搜索结果准确率较低的问题。另外,商品审核场景中:违规商品的标题、详情、图片等单独信息都不能独立指代某一个违规点,但是组合起来就能够明确指代是否是违规商品,例如:标题:夜店专用天马行空;详情:具有麻醉,迷幻等功能;图片:一张上面是白色粉状物体的图片;指代商品:违禁商品。本申请还可解决无法通过单一信息源明确商品是否违规的技术问题。本申请可融合多模态信息以及知识图谱的多跳关系来明确指代一类违禁商品。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本申请一示例性实施例提供的一种信息处理系统的结构示意图。如图1所示,信息处理系统包括:客户端101、服务端102。
客户端101,用于发送待识别信息至服务端101;
所述服务端102,用于获取待识别信息;利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。其中,本申请中的知识图谱可以为多模态知识图谱。多模态知识图谱可简单理解为:包括图像信息、视频信息、语音信息、文本信息等多种感官融合信息的知识图谱。多模态嵌入将诸如图像信息、视频信息、语音信息、文本信息等多种感官融合信息与知识图谱结合起来,促使知识图谱更有效的进行知识表达。
客户端101可以是集成在终端上的一个具有嵌入式程序的硬件,也可以是安装在终端中的一个应用软件,还可以是嵌入在终端操作系统中的工具软件等,本实施例对此不作限定。终端可以是任何具有一定计算能力的设备,例如可以是智能手机、平板电脑、个人电脑等等。具有所述客户端101的终端的基本结构可包括:至少一个处理单元和至少一个存储器。处理单元和存储器的数量取决于终端的配置和类型。存储器可以包括易失性的,例如RAM,也可以包括非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,终端还包括一些基本配置,例如网卡芯片、IO总线、音视频组件等。可选地,终端还可以包括一些外围设备,例如键盘、鼠标、输入笔等。其它外围设备在本领域中是众所周知的,在此不做赘述。例如,用户可通过所述客户端提供的交互界面输入所述待识别信息,由客户端将所述待识别信息发送至服务端。
服务端102是指可以在网络环境中提供信息交互服务的服务器,用户可以通过网络向服务端102发送待识别信息,还可以通过网络从服务端102中获取到目标实体对应的查询结果,在物理实现上,服务端102可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如可以是常规服务器、云服务器、云主机、虚拟中心等。服务器的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在本实施例中,客户端101与服务端102之间可以是无线或有线网络连接。若客户端101与服务端102通过移动网络连接,该移动网络的网络制式可以为4G(LTE)、4G+(LTE+)、WiMax、5G等中的任意一种。
本系统实施例中的各组成单元,如客户端、服务端的执行原理及交互过程可参见如下各方法实施例的描述。
图2为本申请另一示例性实施例的信息处理方法的流程示意图,该方法的执行主体可以为图1中的客户端101,也可以为图1中的服务端102,该方法包括以下步骤S201至步骤S204:
步骤S201,获取待识别信息。
步骤S202,利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息。
步骤S203,从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息。
步骤S204,根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
上述步骤S201中,待识别信息可以为用户输入或导入的数据。例如:用户通过交互界面中的搜索框输入该待识别信息。当然,所述待识别信息也可以是对输入数据进行相应处理后得到的信息。其中,输入数据可包含但不限于如下中的至少一种:文本、图像、语音等。输入数据可以是同一时间段中多次输入的数据组合,也可以是一次输入中的数据。在一种可实现的技术方案,所述待识别信息包括至少一个子信息;相应的,该步骤S201“获取待识别信息”,包括如下中的至少一项:
在输入数据中含有文本的情况下,对所述文本进行分词;将分词得到的至少一个分词项作为子信息添加至所述待识别信息中;
在输入数据中含有图像的情况下,对所述图像进行特征提取;将提取出的特征信息作为子信息添加至所述待识别信息中;
在输入数据中含有图像的情况下,对所述图像进行OCR识别;将OCR识别结果作为子信息添加至所述待识别信息中;
在输入数据中含有音频信息的情况下,对所述音频信息进行识别;将音频识别结果作为子信息添加至所述待识别信息中;
将输入数据中所含的至少部分源数据作为子信息添加至所述待识别信息中。
例如,输入数据中包含有文本及图像。具体实施时,可将对文本进行分词;将分词处理得到的至少一个分词项作为子信息添加至待识别信息中;还可对图像进行特征提取,将提取出的特征信息作为子信息添加至待识别信息中;还可对图像进行OCR识别;将OCR识别结果作为子信息添加至所述待识别信息中;还可对输入数据中的图像作为子信息添加至所述待识别信息中。
步骤S202中,所述知识图谱包括多个信息项,所述多个信息项包含有:节点以及任意两节点之间关系;节点具有两类,分别为实体及属性值。知识图谱中可包括多种模态的节点,例如:图像节点、语音节点、文本节点;也可包括不同模态的关系,例如:图像关系、语音关系、文本关系。
可选地,第一候选信息可以为从知识图谱中通过预设规则筛选出的候选信息。具体地,该预设规则可以为知识图谱中节点或关系与待识别信息的子信息相似度大于预设相似度。
步骤S203中,可基于第一候选信息中候选属性值和/或候选关系在知识图谱中进行多跳查询,查询到候选属性值和/或候选关系对应的实体。其中,关系包括:实体与实体之间的关系,以及实体与属性值之间的关系。因此,可从所述知识图谱中,查找到与所述第一候选信息存在关系的第一实体候选信息。
步骤S204中,可基于第一实体候选信息中的候选实体,确定目标实体。例如,若第一实体候选信息中的候选实体为多个时,可将所述多个候选实体进行排序;将排在前N(如,2、3、5等)的候选实体作为所述目标实体。
本实施例提供的方案,先利用知识图谱初步确定待识别信息对应的第一候选信息,并在第一候选信息包含属性值候选信息和/或关系候选信息时,从知识图谱中进一步获取与属性值候选信息和/或关系候选信息存在关系的第一实体候选信息;以基于第一实体候选信息确定属性确定待识别信息(或待审核信息、或待查询信息)对应的实体;即本实施例提供的技术方案利用知识图谱中包含有的实体、关系、属性值等特征,对待识别信息进行联想和链接,实现了为隐喻实体(即未明确提及实体的信息)确定实体的目的,且实体确定准确率高。
进一步地,上述S202中的利用知识图谱,确定所述待识别信息对应的第一候选信息,可通过以下步骤实现:
步骤S2021,将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果。
在本申请的一些可选的实施例中,上述待识别信息可包括文本、图像、语音等。该待识别信息是对输入数据进行处理后得到的。其中,输入数据可以是同一时间段中的多次输入的数据组合,也可以是一次输入的内容。假设,输入数据中含有文本信息,则可通过文本预处理技术,将文本信息处理成至少一个独立的子信息,并添加至所述待识别信息。
其中,上述文本预处理技术包括但不限于:大小写转换(A->a),繁简体转换(閃->闪),emoji表情去除(如去掉,或者其文字形式,[微笑]去掉等等),特殊符号去除或转换(II->2),全角符号转换为半角(。->.),分词等。
相似度计算过程可具体为:将待识别信息中的一子信息与知识图谱中的实体,属性值,关系进行词匹配以及两两配对相似度计算,得到该子信息分别与知识图谱中各实体、各属性值及各关系的目标相似度计算结果。
步骤S2022,基于所述目标相似度计算结果,从所述至少部分信息项中确定出与所述待识别信息符合相似度要求的所述第一候选信息。
在本申请的一些可选的实施例中,该处的相似度要求可以为目标相似度计算结果大于预设阈值。其中,预设阈值可为一经验值,如80%、85%等。具体地,在得到目标相似度计算结果后,可将目标相似度计算结果大于预设阈值的节点(实体或属性值)或关系作为候选项添加至所述第一候选信息中。进一步的,还可基于目标相似度计算结果对候选项进行排序,将排序在前预设数量(如20、30等)的候选项添加至第一候选信息。具体地,可按照目标相似度计算结果对应的相似度值越大,排序对应的序号越小的规则进行排序,将排序名次小于预设值(如20、30等)的候选项添加至第一候选信息。
可选地,上述S2021中,将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果,可通过以下步骤进行实现:
步骤S20211,采用至少两种相似度计算方法,将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到各相似度计算方法对应的初始相似度计算结果;
步骤S20212,综合各相似度计算方法对应的初始相似度计算结果,得到所述目标相似度计算结果。
在本申请的一些可选的实施例中,所述至少两种相似度计算方法包括如下中的至少两种:完全匹配法、编辑距离法、编码法、图像相似法。
其中,完全匹配法具体为:当所述待识别信息与所述至少部分信息项符合完全匹配规则时,确定所述初始相似度计算结果为1;当所述待识别信息与所述至少部分信息项不符合完全匹配规则时,确定所述初始相似度计算结果为0。在本申请的一些可选的实施例中,若待识别信息与知识图谱中的实体、或属性值、或关系在文本层面能够完全匹配,则可直接召回该完全匹配的实体,属性值或关系;将召回的完全匹配的实体、属性值或关系作为第一候选信息。完全匹配法可简单理解为:两文本字符上完全相同即完全匹配,字符上存在差异即不匹配;或者,两图像上所有像素信息完全相同即完全匹配,所有像素信息存在差异即不匹配。
编辑距离法具体为:计算所述待识别信息与所述至少部分信息项的编辑距离;根据所述编辑距离进行相似度计算。在本申请的一些可选的实施例中,编辑距离法为基于编辑距离的文本相似度计算法。具体地,可将待识别信息与至少部分信息项,进行基于编辑距离的初始相似度计算,并基于预设的相似度阈值确定第一候选信息。可设定预设阈值为0.8,将对应的初始相似度计算结果大于0.8的实体、属性值、关系均直接召回,将召回结果作为第一候选信息。
编码法具体为:对所述待识别信息进行切词处理,得到处理结果;基于所述处理结果与第一预设模型生成对应所述待识别信息的分布式词向量;利用第二预设模型对所述分布式词向量进行编码,得到第一向量集;利用第三预设模型对所述至少部分信息项进行编码,得到第二向量集;根据所述第一向量集与所述第二向量集进行相似度计算。在本申请的一些可选的实施例中,编码法为基于语义空间的文本相似度计算法,上述第一预设模型可以为word2vec模型,第二预设模型为CNN或者LSTM模型,第三预设模型可以为GCN或者node2vec模型。
在本申请的一些可选的实施例中,此处的含义是将待识别信息和知识图谱中的实体、属性值、关系等采用两种不同的方法进行编码。因为待识别信息是在文本中或者图像中的信息,文本与图像都属于线性结构或者平面结构,因此要通过CNN模型或者LSTM模型对其进行直接编码。但是知识图谱属于图结构,可以理解为一个网状图,就需要通过GCN(图卷积神经网络)模型对其进行编码,这样能在编码过程中考虑到节点周围的邻居信息;编码的作用是将待识别信息以及知识图谱中的实体、属性值、关系映射在同一向量空间中,以进行相似度比对,例如:将待识别信息,以及知识图谱中的实体、属性值、关系都编码在值域为-0.1-0.1,维度为5的空间中,从而方便做相似度计算,由于向量相似度涉及到向量乘法或者矩阵乘法,必须满足形式上的合理,如1*2的向量与1*3的向量,就不能直接做乘法。
例如,可通过所述第一向量集中的向量与所述第二向量集中向量的余弦相似度,确定待识别信息与所述多个信息项中至少部分信息项的初始相似度计算结果。
图像相似法具体为:当所述待识别信息包括图像信息时,基于所述图像信息与所述至少部分信息项中的图像信息进行相似度计算。其中,待识别信息可以为多种类型的信息,例如:文本信息、图像信息以及语音信息等。对待识别信息的类型进行检测,检测到待识别信息的类型以后,可只针对至少部分信息项中与待识别信息为同一类型的信息项进行相似度计算。
具体地,当所述待识别信息包括图像信息时;基于所述图像信息与所述至少部分信息项中的图像信息进行相似度计算;当所述待识别信息包括待识别视频信息时;基于所述待识别视频信息与所述至少部分信息项中的视频信息进行相似度计算;当所述待识别信息包括待识别语音信息时;基于所述待识别语音信息与所述至少部分信息项中的语音信息进行相似度计算。
而在商品审核场景中,需要对商品的主副图,与知识图谱中的实体的主图属性图片进行相似度计算。
在本申请的另一些可选的实施例中,还可以在将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算之前,本实施例提供的所述方法还包括:将至少部分信息项中类型与待识别信息的类型不同的信息项,统一转化为目标类型的信息项,该目标类型可与待识别信息的类型相同。
例如,当待识别信息的类型为文字类型时,将至少部分信息项中的视频类型、语音类型、图像类型的信息项,统一转化为文字类型的信息项。
在本申请的又一些可选的实施例中,还可以通过图像信息与文本进行第三方语义空间映射做相似度计算,从而确定图像信息和文本信息之间的相似度。可选地,当待识别信息包括图像信息时,对待识别信息进行OCR识别以后,将图像信息转化为了文字信息,然后再基于该文字信息,利用上述的完全匹配法、编辑距离法、编码法中的至少之一进行相似度计算。具体地,还可以利用该三种方法中的其中一种进行相似度计算,还可以根据该三种方法分别对应的预设权重,综合该三种方法进行相似度计算。其中,每种方法对应的预设权重可以由技术人员设定。
基于OCR结果的文本相似度计算在商品审核场景中,需要对商品的主副图,都通过OCR技术识别出其中的文字或水印文字,并通过上述的完全匹配法、编辑距离法、编码法中的至少之一对该文字信息与知识图谱中的文本信息做相似度计算。
在本申请的一些可选的实施例中,综合所述至少两种相似度计算方法对应的初始相似度计算结果,得到所述目标相似度计算结果的方式可以为:通过至少两种相似度计算方法对应的初始相似度计算结果对应的权重确定目标相似度计算结果,具体地,可以为加权平均法。
其中,完全匹配法、编辑距离法、编码法、图像相似法以及综合法中每种方法对应的权重,可以由用户自定义设定;也可以根据与每种方法对应的实体的召回数量进行设定,例如:对应的实体的召回数量越多,则设定其对应的权重越小。
在一具体实现方案中,可设定完全匹配法对应的权重占0.5,剩下几种方法对应的权重,可根据每种方法对应的实体召回数量确定,但保持剩下几种方法对应的权重的总和为0.5,原因是知识图谱中实体是唯一的,因此召回数量越多,证明该对应的方法所具备的相似度度量能力越弱。
在本申请的一些可选的实施例中,上述完全匹配法、编辑距离法、编码法、图像相似法对应的权重,还可以基于知识图谱中实体的多种中心性指标(如介数中心性,度中心性等)等图的结构信息层面来进行确定。
在本申请的一些可选的实施例中,还可以将上述完全匹配法、或编辑距离法、或编码法、或图像相似法中任一项对应的初始相似度计算结果直接作为所述目标相似度计算结果。
进一步地,上述步骤S203中,从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息,可通过以下方式进行实现:
S2031、执行多跳操作,以在所述知识图谱中查找具有相同属性值或相同关系的实体;
S2032、将查找到的实体作为候选实体添加至所述第一实体候选信息。
具体的,在所述第一候选信息中含有所述属性值候选信息的情况下,根据所述属性值候选信息中包含的至少一个候选属性值,执行多跳操作(如单跳或双跳),以在所述知识图谱中查询与所述至少一候选属性值对应的实体,将与所述至少一个候选属性值对应的实体添加至所述第一实体候选信息。
在所述第一候选信息中含有所述关系候选信息的情况下,根据所述关系候选信息中包含的至少一个候选关系,执行多跳操作(如单跳或双跳),以在所述知识图谱中查询与所述至少一个候选关系对应的实体,将与所述至少一候选关系对应的实体添加至所述第一实体候选信息。
进一步的,在本实施例中步骤S202中确定出的第一候选信息若还包含有第二实体候选信息,步骤S204中根据所述第一实体候选信息,确定所述待识别信息对应的目标实体,可通过以下步行实现:
步骤S2041,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序。
步骤S2042,根据排序结果,确定所述待识别信息对应的目标实体。
可选地,可按照目标相似度计算结果越大,排序名次越小的规则进行排序,将排序名次的前K名对应的精确实体指代信息作为目标实体。在排序过程中,对应目标相似度计算结果的第一实体候选信息、属性值候选信息以及关系候选信息都可以作为排序特征。在本申请的一些可选的实施例中,可通过LTR的算法,如GBRank模型或者LambdaMart模型对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序,最终得到排序名次满足预设要求的精确实体指代,作为该次搜索的精确返回结果(商品审核场景中即将该商品明确指代到其排序第一的实体所代表的风险商品实体)。本申请的核心在于搜索词(商品审核场景中:商品所有描述信息)中未明确出现所指代实体词的情况下,对隐喻指代的实体进行识别并最终完成精确召回。
具体地,在利用GBRank模型或者LambdaMart模型对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序时,需要将第一实体候选信息及所述第二实体候选信息中的候选实体进行适配对应的排序模型的特征格式的加工处理。
例如,利用Gbrank模型对候选实信息进行排序时,特征格式则是多列互相独立的,如果某列是数值特征,那需要将单位统一,同时做归一化,比如都用月份做单位,或者归一化到0-1的区间;如果利用深度学习模型对候选实体进行排序时,则每一列特征格式就是一个嵌入式的n维特征embedding,比如用5维0-1的向量表示作者,用3维向量表示出版时间(如[0.3,-0.1,0.2])等等,这些维度n以及内部每一维的值域都是基于已有经验或者在训练过程中得到的最优方案,最后多列特征会直接concat(10和01concat是1001)或者相加(10和01相加是11),作为所选排序模型的输入。
进一步地,上述步骤S2041中,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序,可通过以下方式进行实现:
获取所述第二实体候选信息中的候选实体与所述待识别信息中相应子信息的第一相似度值;
在所述第一实体候选信息中包含有通过所述属性值候选信息得到的候选实体时,获取所述属性值候选信息中的候选属性值与所述待识别信息中相应子信息的第二相似度值;
在所述第一实体候选信息中包含有通过所述关系候选信息得到的候选实体时,获取所述关系候选信息中的候选关系与所述待识别信息中相应子信息的第三相似度值;
根据所述第一相似度值、所述第二相似度和所述第三相似度值,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序。
通过本申请的方案能够直接解决待识别信息中隐喻实体识别的问题,克服了传统搜索方法中只能找回查询信息中明确提及的实体词所对应的相关商品实体的缺点。当用户第一次搜索"霍格沃茨学校",第二次搜索"伏地魔图书"原有方法只能召回商品标题中明确出现霍格沃茨学校和伏地魔&&图书的商品,而本申请所述方法能够通过出版物的主要人物属性,类目属性,摘要等信息,直接召回对应的图书名称信息(全册或单册);并且,本申请还能够通过商品的广告属性+品类属性+主要症状属性,返回具体相关商品;商品审核场景中:标题:夜店专用、天马行空;详情:具有麻醉,提神等功能;图片:一张上面是白色粉状物体的图片;原本通过该商品中任一单一属性都无法确认该商品是否违规。而该方法能够直接通过其主要症状,剂型及存在形式(粉末状),颜色,以及常出现场所等关键属性,从图谱中直接指向大麻等违禁类药品实体,从而达到违规商品的判定。
本申请解决了搜索词中未明确提及实体词情况下的隐喻实体识别的问题,采用多维度多模态的相似度计算方式,解决了单模态信息量不够导致无法判定的问题,将搜索词或改写后的搜索词与实体词做匹配的搜索召回问题,转变成将搜索词和图谱中与实体相关的属性,关系及多跳以内其他相关实体的搜索召回问题。利用知识图谱中包含的实体、关系、属性值以及各个信息之间的关系的特征,起到了为多种多样的待识别信息查询到相关的实体的作用,实现了当用户输入的查询信息不明确时,提高对应查询信息的搜索结果的准确性的技术效果。
图3a为本申请另一示例性实施例的信息处理方法的流程示意图,如图3a所示,该方法包括以下步骤S301至步骤S305:
步骤S301,获取查询信息。
可选地,该处的查询信息可以为用户通过图3b中的终端311提供的搜索界面输入。其中,终端311可以是智能手机、笔记本电脑、智能穿戴设备、台式计算机等等。
步骤S302,利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息。
具体地,所述知识图谱包括多个信息项,所述多个信息项包含有:节点以及任意两节点之间关系;节点具有两类,分别为实体及属性值。本实施例中的所述知识图谱可以为多模态知识图谱。
步骤S303,从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息。
步骤S304,根据所述第一实体候选信息,确定所述查询信息对应的目标实体。
步骤S305,基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
有关上述步骤S303、S304的内容,可参见上述实施例中的相应内容,此处不作赘述。
上述S301中,查询信息包含至少一个信息项,信息项包含如下中的至少一种:文本信息项、语音信息项、图像信息项。所述知识图谱包括多个信息项,所述多个信息包含:节点以及任意两节点之间的关系;节点具有两类,分别为实体及属性值;信息项模态包含如下中的至少一种:文本模态、语音模态、图像模态。
进一步地,上述S302中的利用知识图谱,确定所述查询信息对应的第一候选信息,可通过以下步骤实现:
步骤S3021,对所述查询信息进行处理,得到处理后的至少一个子信息。
步骤S3022,从所述知识图谱中,查询分别与所述至少一个子信息符合匹配要求的候选节点或关系,得到所述第一候选信息。
在本申请的一些可选的实施例中,上述查询信息可包含文本信息,将所述查询信息与所述多个信息项中至少部分信息项进行相似度计算之前,可首先将同一时间段中的多次搜索输入的查询信息或者一次搜索中的多个查询信息通过文本预处理技术,处理成多个独立的子信息。
上述将同一时间段中的多次搜索输入的查询信息或者一次搜索中的多个查询信息通过文本预处理技术,处理成多个独立的子信息如图3b中的子信息1、子信息2、子信息3等。
这里需要说明的是:本实施例中对待查询信息的处理同上述实施例中有关对输入数据的处理过程。具体的,
在待查询信息中含有文本的情况下,对所述文本进行分词;将分词得到的至少一个分词项作为子信息添加至所述待识别信息中;
在待查询信息中含有图像的情况下,对所述图像进行特征提取;将提取出的特征信息作为子信息添加至所述待识别信息中;
在待查询信息中含有图像的情况下,对所述图像进行光学字符识别;将光学字符识别结果作为子信息添加至所述待识别信息中;
在待查询信息中含有音频信息的情况下,对所述音频信息进行识别;将音频识别结果作为子信息添加至所述待识别信息中;
将待查询信息中所含的至少部分源数据作为子信息添加至所述待识别信息中。
可选地,在对查询信息进行处理以后,将各子信息分别与知识图谱中的所述多个信息项中至少部分信息项进行相似度计算。具体地,将各子信息与知识图谱中的实体,属性值,关系做词匹配以及两两配对相似度计算,得到目标相似度计算结果。同上述实施例,在目标相似度计算结果大于预设阈值时,说明子信息与知识图谱中的一实体或属性值或者关系符合匹配要求。
可选地,将所述查询信息中的子信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果,可通过以下步骤实现:
步骤S30211,采用至少两种相似度计算方法,将所述子信息与所述多个信息项中至少部分信息项进行相似度计算,得到相应相似度计算方法对应的初始相似度计算结果;
相似度计算方法可包括:完全匹配法、编辑距离法、编码法、图像相似法。具体地,每种方法的计算方式可参照图2对应的实施例,此处不再赘述。
步骤S30212,综合所述至少两种相似度计算方法对应的初始相似度计算结果,得到所述目标相似度计算结果。
进一步地,上述步骤S303中,从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息,可利用多跳操作的方式实现。相关内容,可参见上文实施例中相应内容,此次不作赘述。
在本申请的一些可选的实施例中,所述第一候选信息还包括:第二实体候选信息。
可选地,确定出第一候选信息的过程可参见图3b中的步骤S302,第一候选信息可包括:图3b中的第二实体候选信息1、……第二实体候选信息N、属性值候选信息1、……属性值候选信息N、关系候选信息1、……关系候选信息N等。
本实施例提供的所述步骤S304可具体为:
步骤S3041,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序;步骤S3042,根据排序结果,确定所述查询信息对应的目标实体。
这里需要补充的是:有关上述步骤S3041的具体实现过程,可参见上述实施例中的相应内容,此处不作赘述。
可选地,上述S304中的目标实体可以为排序结果中排在前K(如1、2、4等)的实体候选信息项。上述步骤S301、步骤S302、步骤S303、步骤S304的执行主体可以为终端311,当终端311确定目标实体后,上述方法还包括:终端311将目标实体发送至图3b中的服务器312。服务器312获取到目标实体后,将进行搜索得到所述查询信息对应的目标搜索结果,并将目标搜索结果发送至终端311。
在另一种可实现的技术方案中上述步骤S301的执行主体也可以为服务器312。即,服务器312获取到用户通过终端311输入的查询信息后,执行步骤S302、步骤S303、步骤S304以及步骤S305,并且将目标搜索结果发送至终端311。
本申请实施例提供的方案通过基于查询信息与知识图谱初步选择第一候选信息,并在第一候选信息包含属性值候选信息和/或关系候选信息时,根据属性值候选信息和/或关系候选信息确定对应的实体的方式;利用知识图谱中包含有实体、关系、属性值以及各个信息之间的关系的特征,实现了为未明确提及实体的查询信息查询到相关的实体的作用,实现了当用户输入的查询信息不明确时,提高对应查询信息的搜索结果的准确性的技术效果。
需要说明的是,上述实施例所提供方法的具体实施方式在前文已经详细阐述过了,此处就不再赘述。
本申请的上述信息处理方法不仅能够应用于正向搜索业务中,也能应用于逆向审核业务中。图4a为本申请另一示例性实施例的信息处理方法的流程示意图,该方法包括以下步骤S401至步骤S404:
步骤S401,获取待审核信息。
其中,所述待审核信息包括以下至少之一:图像信息、文字信息、语音信息。具体地,待审核信息可以为商家通过图4b中的终端411上传的商品标题信息、商品详情信息、商品主副图信息。
步骤S402,利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息。
其中,所述知识图谱包括多个信息项,所述多个信息项包含有:节点以及任意两节点之间关系;节点具有两类,分别为实体及属性值。具体实施时,所述知识图谱可以是多模态知识图谱,即知识图谱中可包括多种类型的节点,例如:图像节点、语音节点、文本节点,也可包括不同类型的关系,例如:图像关系、语音关系、文本关系。
可选地,第一候选信息可以为从知识图谱中通过预设规则筛选出的候选信息。
步骤S403,在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息。
步骤S404,根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体。
步骤S405,基于所述目标实体,确定所述待审核信息是否通过审核。
具体的,上述步骤S405“基于所述目标实体,确定所述待审核信息是否通过审核”可具体包括:
若所述目标实体为违规实体,则所述待审核信息未通过审核;
若所述目标实体为合规实体,则所述待审核信息通过审核。
具体地,判定所述目标实体是否为违规实体可以通过查询违规实体库的方式来确定。例如,违规实体库中存储有多种违规实体,若查询目标实体在违规实体库内,则表明目标实体为违规实体。若查询目标实体不在违规实体库内,则表明目标实体为合规实体。
可选地,所述方法还包括:向目标设备发送报警信息。
上述步骤S402~步骤S404的具体实现过程,可参见上述实施例中的相应内容,此处不作具体限定。
在本申请的一些可选的实施例中,在商品审核场景下,需对待审核的商品信息,即对多模态商品信息做分词等预处理、文本和图像特征抽取等基本操作,确定处理后的商品标题信息、商品详情信息以及商品主副图信息。处理后的商品标题信息、商品详情信息以及商品主副图信息可以为图4b中的待审核信息1、待审核信息2、待审核信息3等。参见图4b,利用多模态知识图谱,确定待审核1、待审核信息2及待审核信息3各自对应的候选信息,得到第一候选信息。第一候选信息中包含:关系候选信息1……关系候选信息N、属性值候选信息1、……属性值候选信息N、第一实体候选信息1、……第一实体候选信息N。在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;然后根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体。上述步骤S401、步骤S402、步骤S403、步骤S404的执行主体可以为终端411,当终端411确定目标实体后,上述方法还包括:终端411将目标实体发送至图4b中的服务器412。服务器412获取到目标实体后,将判断所述目标实体是否为违规信息,若是,则确定所述待审核信息未通过审核,并将待审核信息是否通过审核的审核结果发送至终端411。当然,本实施例提供的所述方法,即上述步骤S401、步骤S402、步骤S403、步骤S404的执行主体也可以为服务器412。具体的,服务器412在获取到终端411发送的待审核信息后,通过执行上述各步骤得到目标实体并判断目标实体是否为违规信息后,将审核结果发送至终端411。
本申请实施例在商品审核场景中,通过违规商品的标题、详情、图片等单独信息都不能独立指代某一个违规点,但是组合起来就能够明确指代是否是违规商品,具体地,可通过知识图谱中的各种类型的信息,例如:图像信息、文字信息等,查询到各类信息对应的实体,例如:标题:夜店专用天马行空;详情:具有麻醉,迷幻等功能;图片:一张上面是白色粉状物体的图片;指代商品:违禁商品。本申请还可解决无法通过单一信息源明确商品是否违规的技术问题。本申请可融合多模态信息以及知识图谱的多跳关系来明确指代一类违禁商品。
需要说明的是,上述实施例所提供方法的具体实施方式在前文已经详细阐述过了,此处就不再赘述。
本申请还提供了一种信息处理方法,该方法包括以下步骤S501至步骤S504:
步骤S501,首先将同一时间段内的多次搜索查询信息或者一次搜索中的多个搜索查询信息通过文本预处理技术,处理成多个独立的查询信息(商品审核场景下即为对多维度商品信息做分词等预处理以及文本和图像特征抽取等基本操作)。
步骤S502,将处理好的查询信息(商品审核场景下的多模态信息)与已有知识图谱中的实体,属性值,关系做匹配以及两两配对相似度计算,从而通过相似度排序,得到多个第一候选信息,第一候选信息可包括:第一实体候选信息,属性值信息和关系候选信息。
步骤S503,将S502中所得到的所有第一候选信息进行基于知识图谱的图谱结构的多跳游走,从而得到具有相同属性值,或者相同关系的更多实体候选信息;将得到的实体候选信息与第一实体候选信息一起添加至候选实体集合;
步骤S504,将S503中得到的候选实体集合作为待排序实体集,从S502中将与S503中所得候选实体集合中所包含的与实体相关的相似性得分以及S503中候选实体集合中候选实体的单跳,双跳范围内的属性值和关系作为排序特征,对其进行适配排序模型的特征格式的加工处理。
步骤S505,最后通过LTR的算法,如GBRank或者LambdaMart对S503中候选实体集合进行排序,最终得到前K(取值为1、2或5等)个实体作为目标实体,作为该次搜索的基于实体的精确返回结果(商品审核场景中即将该商品明确指代到其top1实体所代表的风险商品实体);
本申请的核心在于搜索词(商品审核场景中:商品所有描述信息)中未明确出现所指代实体词的情况下,对隐喻指代的实体进行识别并最终完成精确召回。
本申请中涉及的技术细节如下:
步骤S5021.进行查询信息与知识图谱中实体,属性值,关系的相似度计算,其中,相似度计算方法如下所示:
步骤S50211,基于完全匹配的相似度计算,若该查询信息与知识图谱中的实体,属性值,或者关系在文本层面能够完全匹配,则直接将该完全匹配的实体,属性值,或者关系作为第一候选信息。
步骤S50212,基于编辑距离的文本相似度计算,将该查询信息与知识图谱中的实体,属性值,关系进行基于编辑距离的相似度计算,设定阈值为0.8,将所得相似度对应的分数大于0.8的实体,属性值,关系均直接作为第一候选信息。
步骤S50213,基于语义空间的文本相似度计算将该查询信息与知识图谱中的实体,属性值,关系,通过切词+word2vec模型的词向量转换,转换成分布式表示的向量,并进一步通过CNN或LSTM等方式对查询信息进行编码,通过GCN或node2vec的方式对知识图谱中的实体,属性值,关系进行编码,最后通过余弦相似度,对两两匹配的词组合进行相似度计算,并将得分最高的多个实体,属性值,以及关系作为第一候选信息。
步骤S50214,基于图像的相似度计算,在商品审核场景中,需要对商品的主副图,与知识图谱中的实体的主图属性图片进行相似度计算,从而将相似度最高的主图属性图片对应的信息作为第一候选信息。
步骤S50215,基于OCR识别结果的文本相似度计算,在商品审核场景中,需要对商品的主副图,通过OCR技术识别出其中的文字或水印文字,并通过S50211,S50212,S50213中的三种方式对该文字与知识图谱中的文本信息做相似度计算。
步骤S5022,多相似度指标的融合;
对S5021中所有方法对应的相似度指标进行加权平均,加权系数由人为决定,参考标准可以为:完全匹配的权重占0.5,剩下4种相似度指标与实际情况中各指标的召回实体数量成反比,但保持总和为0.5,原因是知识图谱中实体是唯一的,因此召回数量越多,证明该相似度指标所具备的度量能力越弱。
本申请通过计算同一时间段内多次搜索查询信息的组合或同一次搜索中的多查询信息组合(商品审核场景下即为商品标题+商品详情+商品主副图等多模态信息)与已有知识图谱中实体、属性、关系的文本相似度,图片相似度等相似性指标,对查询信息中未明确出现所指代实体词的情况下进行候选实体召回,并将上一步中对相似性指标的计算结果以及对实体、属性值、关系的召回值作为排序特征,通过一系列LTR的排序方法如GBRank或LambdaMart等对候选实体做排序,并最终根据排序结果召回topK精确指代实体。
本申请一示例性实施例还提供了一种信息处理系统,该信息处理系统包括:
客户端,用于发送查询信息至服务端;
所述服务端,用于利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述查询信息对应的目标实体;基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果;将所述目标搜索结果发送至所述客户端。
该信息处理系统中的客户端与服务端的结构可以与图1对应的客户端以及服务端的结构相同。
本系统实施例中的各组成单元,如客户端、服务端的执行原理及交互过程可参见图3a对应的实施例的描述,此处不再赘述。
本申请一示例性实施例还提供了一种信息处理系统,该系统包括:
客户端,用于发送待审核信息至服务端;
服务端,用于获取待审核信息;利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;基于所述目标实体,确定所述待审核信息是否通过审核;将审核结果反馈至所述客户端。
该信息处理系统中的客户端与服务端的结构可以与图1对应的客户端以及服务端的结构相同。
本系统实施例中的各组成单元,如客户端、服务端的执行原理及交互过程可参见图4a对应的实施例的描述,此处不再赘述。
图5为本申请另一示例性实施例的信息处理装置的结构示意图,该装置包括:第一获取模块51、第一确定模块52、第二获取模块53、第二确定模块54;以下针对各个模块的功能进行详细的阐述:
第一获取模块51,用于获取待识别信息;
第一确定模块52,用于利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
第二获取模块53,用于从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
第二确定模块54,用于根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
可选地,所述知识图谱包括多个信息项,所述多个信息项包含:节点以及任意两节点之间的关系;节点具有两类,分别为实体及属性值。相应的,上述第一确定模块52,用于利用知识图谱,确定所述待识别信息对应的第一候选信息时,具体用于:将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果;基于所述目标相似度计算结果,从所述至少部分信息项中确定出与所述待识别信息符合相似度要求的所述第一候选信息。
可选地,在上述第一确定模块52,用于将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果时,具体用于:采用至少两种相似度计算方法,将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到各相似度计算方法对应的初始相似度计算结果;综合各相似度计算方法对应的初始相似度计算结果,得到所述目标相似度计算结果。
可选地,所述至少两种相似度计算方法包括如下中的至少两种:完全匹配法、编辑距离法、编码法、图像相似法。
可选地,所述待识别信息包括至少一个子信息。相应的,所述第一获取模块51还具有如下中的至少一项功能:
在输入数据中含有文本的情况下,对所述文本进行分词;将分词得到的至少一个分词项作为子信息添加至所述待识别信息中;
在输入数据中含有图像的情况下,对所述图像进行特征提取;将提取出的特征信息作为子信息添加至所述待识别信息中;
在输入数据中含有图像的情况下,对所述图像进行光学字符识别;将光学字符识别结果作为子信息添加至所述待识别信息中;
在输入数据中含有音频信息的情况下,对所述音频信息进行识别;将音频识别结果作为子信息添加至所述待识别信息中;
将输入数据中所含的至少部分源数据作为子信息添加至所述待识别信息中。
可选地,在第二获取模块53用于在从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息时,具体用于:执行多跳操作,以在所述知识图谱中查找具有相同属性值或相同关系的实体;将查找到的实体作为候选实体添加至所述第一实体候选信息。
进一步的,所述第一候选信息还包括第二实体候选信息。在第二确定模块54用于根据所述第一实体候选信息,确定所述待识别信息对应的目标实体时,具体用于:
对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序;根据排序结果,确定所述待识别信息对应的目标实体。
可选地,在第二确定模块54,用于对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序时,具体用于:获取所述第二实体候选信息中的候选实体与所述待识别信息中相应子信息的第一相似度值;在所述第一实体候选信息中包含有通过所述属性值候选信息得到的候选实体时,获取所述属性值候选信息中的候选属性值与所述待识别信息中相应子信息的第二相似度值;在所述第一实体候选信息中包含有通过所述关系候选信息得到的候选实体时,获取所述关系候选信息中的候选关系与所述待识别信息中相应子信息的第三相似度值;根据所述第一相似度值、所述第二相似度和所述第三相似度值,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序。
本装置的执行原理及交互过程可参见前述对应实施例的描述,此处不再赘述。
图6为本申请另一示例性实施例的信息处理装置的结构示意图,该装置包括:第一获取模块61、第一确定模块62、第二获取模块63、第二确定模块64、搜索模块65;
第一获取模块61,用于获取查询信息;
第一确定模块62,用于利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
第二获取模块63,用于从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
第二确定模块64,用于根据所述第一实体候选信息,确定所述查询信息对应的目标实体;
搜索模块65,用于基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
进一步的,所述查询信息包含至少一个信息项,信息项包含如下中的至少一种:文本信息项、语音信息项、图像信息项;
所述知识图谱包括多个信息项,所述多个信息包含:节点以及任意两节点之间的关系;节点具有两类,分别为实体及属性值;信息项模态包含如下中的至少一种:文本模态、语音模态、图像模态。
进一步的,所述第一确定模块62还用于:
对所述查询信息进行处理,得到处理后的至少一个子信息;
从所述知识图谱中,查询分别与所述至少一个子信息符合匹配要求的候选节点或关系,得到所述第一候选信息。
进一步的,所述第一候选信息还包括:第二实体候选信息。相应的,所述第二确定模块64还用于:对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序;根据排序结果,确定所述查询信息对应的目标实体。
本装置的执行原理及交互过程可参见前述对应实施例的描述,此处不再赘述。
图7为本申请另一示例性实施例的信息处理装置的结构示意图,该装置包括:第一获取模块71、第一确定模块72、第二获取模块73、第二确定模块74,审核模块75;其中,
第一获取模块71,用于获取待审核信息;
第一确定模块72,用于利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;
第二获取模块73,用于在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;
第二确定模块74,用于根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;
审核模块75,用于基于所述目标实体,确定所述待审核信息是否通过审核。
进一步的,所述审核模块75还用于:若所述目标实体为违规实体,则所述待审核信息未通过审核;若所述目标实体为合规实体,则所述待审核信息通过审核。
本装置的执行原理及交互过程可参见前述对应实施例的描述,此处不再赘述。
图8示出了本申请一实施例提供的电子设备的结构示意图。如图8所示,所述电子设备包括:存储器81以及处理器82;其中,
所述存储器81,用于存储程序;
所述处理器82,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取待识别信息;
利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
上述存储器81可被配置为存储其它各种数据以支持在计算设备上的操作。这些数据的示例包括用于在计算设备上操作的任何应用程序或方法的指令。存储器81可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
上述处理器82在执行存储器81中的程序时,除了上面的功能之外,还可实现其它功能,具体可参见前面各实施例的描述。
进一步,如图8所示,电子设备还包括:显示器83、电源组件84、通讯组件85等其它组件。图8中仅示意性给出部分组件,并不意味着该电子设备只包括图8所示组件。
本申请一实施例还提供了一种电子设备。
该电子设备的结构图与图8类似,但是该电子设备中的处理器用于:
获取查询信息;
利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述查询信息对应的目标实体;
基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
上述处理器还可实现其它功能,具体可参见前面各实施例的描述。
本申请一实施例还提供了一种电子设备。
该电子设备的结构图与图8类似,但是该电子设备中的处理器用于:
获取待审核信息;
利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;
在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;
根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;
基于所述目标实体,确定所述待审核信息是否通过审核。
上述处理器还可实现其它功能,具体可参见前面各实施例的描述。
相应的,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,所述计算机程序被计算机执行时能够实现上述各实施例提供的信息处理方法的步骤或功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

1.一种信息处理方法,其特征在于,包括:
获取待识别信息;
利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
2.根据权利要求1所述的方法,其特征在于,所述知识图谱包括多个信息项,所述多个信息项包含:节点以及任意两节点之间的关系;节点具有两类,分别为实体及属性值;以及
利用知识图谱,确定所述待识别信息对应的第一候选信息,包括:
将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果;
基于所述目标相似度计算结果,从所述至少部分信息项中确定出与所述待识别信息符合相似度要求的所述第一候选信息。
3.根据权利要求2所述的方法,其特征在于,将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到目标相似度计算结果,包括:
采用至少两种相似度计算方法,将所述待识别信息与所述多个信息项中至少部分信息项进行相似度计算,得到各相似度计算方法对应的初始相似度计算结果;
综合各相似度计算方法对应的初始相似度计算结果,得到所述目标相似度计算结果。
4.根据权利要求3所述的方法,其特征在于,所述至少两种相似度计算方法包括如下中的至少两种:完全匹配法、编辑距离法、编码法、图像相似法。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述待识别信息包括至少一个子信息;以及
所述获取待识别信息,包括如下中的至少一项:
在输入数据中含有文本的情况下,对所述文本进行分词;将分词得到的至少一个分词项作为子信息添加至所述待识别信息中;
在输入数据中含有图像的情况下,对所述图像进行特征提取;将提取出的特征信息作为子信息添加至所述待识别信息中;
在输入数据中含有图像的情况下,对所述图像进行光学字符识别;将光学字符识别结果作为子信息添加至所述待识别信息中;
在输入数据中含有音频信息的情况下,对所述音频信息进行识别;将音频识别结果作为子信息添加至所述待识别信息中;
将输入数据中所含的至少部分源数据作为子信息添加至所述待识别信息中。
6.根据权利要求1至4中任一项所述的方法,其特征在于,从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息,包括:
执行多跳操作,以在所述知识图谱中查找具有相同属性值或相同关系的实体;
将查找到的实体作为候选实体添加至所述第一实体候选信息。
7.根据权利要求1至4中任一项所述的方法,其特征在于,所述第一候选信息还包括第二实体候选信息;以及
根据所述第一实体候选信息,确定所述待识别信息对应的目标实体,包括:
对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序;
根据排序结果,确定所述待识别信息对应的目标实体。
8.根据权利要求7所述的方法,其特征在于,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序,包括:
获取所述第二实体候选信息中的候选实体与所述待识别信息中相应子信息的第一相似度值;
在所述第一实体候选信息中包含有通过所述属性值候选信息得到的候选实体时,获取所述属性值候选信息中的候选属性值与所述待识别信息中相应子信息的第二相似度值;
在所述第一实体候选信息中包含有通过所述关系候选信息得到的候选实体时,获取所述关系候选信息中的候选关系与所述待识别信息中相应子信息的第三相似度值;
根据所述第一相似度值、所述第二相似度和所述第三相似度值,对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序。
9.一种信息处理方法,其特征在于,包括:
获取查询信息;
利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述查询信息对应的目标实体;
基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
10.根据权利要求9所述的方法,其特征在于,所述查询信息包含至少一个信息项,信息项包含如下中的至少一种:文本信息项、语音信息项、图像信息项;
所述知识图谱包括多个信息项,所述多个信息包含:节点以及任意两节点之间的关系;节点具有两类,分别为实体及属性值;信息项模态包含如下中的至少一种:文本模态、语音模态、图像模态。
11.根据权利要求10所述的方法,其特征在于,利用知识图谱,确定所述查询信息对应的第一候选信息,包括:
对所述查询信息进行处理,得到处理后的至少一个子信息;
从所述知识图谱中,查询分别与所述至少一个子信息符合匹配要求的候选节点或关系,得到所述第一候选信息。
12.根据权利要求9所述的方法,其特征在于,所述第一候选信息还包括:第二实体候选信息;以及
根据所述第一实体候选信息,确定所述查询信息对应的目标实体,包括:
对所述第一实体候选信息及所述第二实体候选信息中的候选实体进行排序;
根据排序结果,确定所述查询信息对应的目标实体。
13.一种信息处理方法,其特征在于,包括:
获取待审核信息;
利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;
在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;
根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;
基于所述目标实体,确定所述待审核信息是否通过审核。
14.根据权利要求13所述的方法,其特征在于,基于所述目标实体,确定所述待审核信息是否通过审核,包括:
若所述目标实体为违规实体,则所述待审核信息未通过审核;
若所述目标实体为合规实体,则所述待审核信息通过审核。
15.一种信息处理系统,其特征在于,包括:
客户端,用于发送待识别信息至服务端;
所述服务端,用于获取待识别信息;利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
16.一种信息处理系统,其特征在于,包括:
客户端,用于发送查询信息至服务端;
所述服务端,用于利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;根据所述第一实体候选信息,确定所述查询信息对应的目标实体;基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果;将所述目标搜索结果发送至所述客户端。
17.一种信息处理系统,其特征在于,包括:
客户端,用于发送待审核信息至服务端;
所述服务端,用于获取所述待审核信息;利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;基于所述目标实体,确定所述待审核信息是否通过审核;将审核结果反馈至所述客户端。
18.一种电子设备,其特征在于,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取待识别信息;
利用知识图谱,确定所述待识别信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述待识别信息对应的目标实体。
19.一种电子设备,其特征在于,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取查询信息;
利用知识图谱,确定所述查询信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:属性值候选信息、关系候选信息;
从所述知识图谱中,获取与所述第一候选信息存在关系的第一实体候选信息;
根据所述第一实体候选信息,确定所述查询信息对应的目标实体;
基于所述目标实体,搜索得到所述查询信息对应的目标搜索结果。
20.一种电子设备,其特征在于,包括:存储器及处理器;其中,
所述存储器,用于存储程序;
所述处理器,与所述存储器耦合,用于执行所述存储器中存储的所述程序,以用于:
获取待审核信息;
利用知识图谱,确定所述待审核信息对应的第一候选信息,其中,所述第一候选信息包括以下至少之一:第一实体候选信息、属性值候选信息、关系候选信息;
在所述第一候选信息包含有所述属性值候选信息和关系候选信息中的至少一项的情况下,从所述知识图谱中,获取与所述第一候选信息存在关系的第二实体候选信息;
根据所述第一实体候选信息和所述第二实体候选信息中的至少一个,为所述待审核信息确定目标实体;
基于所述目标实体,确定所述待审核信息是否通过审核。
CN202010172304.1A 2020-03-12 2020-03-12 信息处理方法、系统及电子设备 Pending CN113392312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010172304.1A CN113392312A (zh) 2020-03-12 2020-03-12 信息处理方法、系统及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010172304.1A CN113392312A (zh) 2020-03-12 2020-03-12 信息处理方法、系统及电子设备

Publications (1)

Publication Number Publication Date
CN113392312A true CN113392312A (zh) 2021-09-14

Family

ID=77615942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010172304.1A Pending CN113392312A (zh) 2020-03-12 2020-03-12 信息处理方法、系统及电子设备

Country Status (1)

Country Link
CN (1) CN113392312A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490884A (zh) * 2021-12-21 2022-05-13 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114490884A (zh) * 2021-12-21 2022-05-13 北京三快在线科技有限公司 确定实体关联关系的方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN112148889A (zh) 一种推荐列表的生成方法及设备
EP3926531B1 (en) Method and system for visio-linguistic understanding using contextual language model reasoners
CN109740152B (zh) 文本类目的确定方法、装置、存储介质和计算机设备
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
CN110928961A (zh) 一种多模态实体链接方法、设备及计算机可读存储介质
Manandhar et al. Learning structural similarity of user interface layouts using graph networks
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
US10191921B1 (en) System for expanding image search using attributes and associations
CN114416995A (zh) 信息推荐方法、装置及设备
CN115659008A (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
CN113961666B (zh) 关键词识别方法、装置、设备、介质及计算机程序产品
CN113011126A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113392312A (zh) 信息处理方法、系统及电子设备
CN114282119B (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN115129885A (zh) 实体链指方法、装置、设备及存储介质
CN114691828A (zh) 数据处理方法、装置、设备以及介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
Bastida et al. Multimodal object recognition using deep learning representations extracted from images and smartphone sensors
CN112270189A (zh) 一种提问式的分析节点生成方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination