CN111552783A - 内容分析查询方法、装置、设备和计算机存储介质 - Google Patents

内容分析查询方法、装置、设备和计算机存储介质 Download PDF

Info

Publication number
CN111552783A
CN111552783A CN202010363945.5A CN202010363945A CN111552783A CN 111552783 A CN111552783 A CN 111552783A CN 202010363945 A CN202010363945 A CN 202010363945A CN 111552783 A CN111552783 A CN 111552783A
Authority
CN
China
Prior art keywords
content
target
target content
theme
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010363945.5A
Other languages
English (en)
Inventor
蔡杭
姜迪
连荣忠
杨海军
黄研洲
于夕畔
江勇
黄冰莹
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010363945.5A priority Critical patent/CN111552783A/zh
Publication of CN111552783A publication Critical patent/CN111552783A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Abstract

本发明涉及计算机金融科技领域,并公开了一种内容分析查询方法、装置、设备和计算机存储介质。方法包括:在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。本发明先确定内容的关键词,根据关键词确定内容主题,根据内容主题进行内容查询,获得与目标内容相似的关联内容,并自动分析目标内容与关联内容的相似信息和差异信息,提高了内容查询的效率和准确率,减少了人力资源的浪费。

Description

内容分析查询方法、装置、设备和计算机存储介质
技术领域
本发明涉及计算机金融科技(Fintech)技术领域,尤其涉及内容分析查询方法、装置、设备和计算机存储介质。
背景技术
近年来,互联网金融科技(Fintech)的飞速发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在计算机金融领域。
现有的金融涉及到的交易种类越来越多,金融交易并不限制为实体物质,还可以是隐形资产,例如,专利申请、学术作品或者文学作品等内容,金融交易对隐形资产的评估也就越来越必要,当前对隐形资产的评估通常是通过人实现的,即,人工分析待评估内容,查找到与待评估内容相似的关联内容,并根据关联内容的价值进行评估,但是人工进行内容分析查询工作量较大,使得内容分析查询效率较低,此外,由于人工整体水平不同,内容分析查询的准确率也得不到保证。
发明内容
本发明的主要目的在于提出一种内容分析查询方法、装置、设备和计算机存储介质,旨在解决当前人工进行内容分析查询工作量较大,内容分析查询效率较低,内容分析查询的准确率也得不到保证的技术问题。
为实现上述目的,本发明提供一种内容分析查询方法,所述内容分析查询方法包括如下步骤:
在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;
解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;
查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;
比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
可选地,所述查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容的步骤,包括:
查询预设数据库,获取所述预设数据库中与所述目标内容相同技术领域的预存内容;通过预设主题抽取模型对所述预存内容进行分析,获得所述预存内容的内容主题和所述内容主题对应的关键词;
在所述目标内容中包含至少两个内容主题和/或所述内容主题中包含至少两个关键词时,计算所述目标内容的内容主题和/或关键词与所述预存内容的内容主题和/或关键词的主题相似度和/或词相似度;
将所述主题相似度和/或所述词相似度进行加权运算,获得所述目标内容与所述预存内容的综合相似度,将与所述目标内容综合相似度高于预设阈值的预存内容作为关联内容。
可选地,所述比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出的步骤,包括:
比对所述目标内容与所述关联内容,将所述目标内容的内容主题划分为相似内容主题和差异内容主题;
将所述相似内容主题和所述相似内容主题对应的关键字作为相似信息输入至预设模板中的相似显示区域,将所述差异内容主题和所述差异内容主题对应的关键字作为差异信息输入至预设模板中的区别显示区域,形成内容分析表。
可选地,所述比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出的步骤之后,所述方法还包括:
获取所述相似信息在所述目标内容中的信息量占比,在所述信息量占比小于预设占比阈值时,确定所述差异信息是否被所述预存内容数据库中除所述关联内容之外的其他内容公开;
若所述差异信息未被所述预存内容数据库中除所述关联内容之外的其他内容公开,则分析所述差异信息在所述目标内容的影响因子并输出;
若所述差异信息被所述预存内容数据库中除所述关联内容之外的其他内容公开,则输出所述预存内容数据库中公开所述差异信息的差异内容。
可选地,所述解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤,包括:
通过预设主题抽取模型对所述目标内容进行分词处理,获得所述目标内容对应的词语集合,去除所述词语集合中的噪声词,获得所述目标内容中的关键词;
获取所述关键词的位置信息和频率信息,通过预设主题抽取模型根据所述关键词的位置信息和频率信息确定所述目标内容的内容主题。
可选地,所述通过预设主题抽取模型对所述预存内容进行分析,获得所述预存内容的内容主题和所述内容主题对应的关键词的步骤之前,包括:
在接收到模型构建请求时,获取初始主题抽取模型,将本地存储中的内容进行标记形成训练样本集;
从所述训练样本集中抽取主题训练样本,通过所述主题训练样本训练所述初始主题抽取模型,获得训练后的主题抽取模型和主题特征向量;
通过预设损失函数处理所述主题特征向量,获得损失值,分析所述损失值确定训练后的主题抽取模型是否收敛;
在检测到训练的主题抽取模型收敛时,将训练得到的主题抽取模型作为预设主题抽取模型输出。
可选地,所述在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容的步骤之后,所述方法还包括:
获取所述目标内容的内容格式;
在所述目标内容的内容格式不是文本文档格式时,调用预设OCR模型对所述目标内容进行检测,确定所述目标内容中的文本区域,并获取所述文本区域中包含的字符信息,以将所述目标内容转化为文本文档格式;
在所述目标内容的内容格式是文本文档格式时,执行所述解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤。
此外,为实现上述目的,本发明还提供一种内容分析查询装置,所述内容分析查询装置包括:
请求接收模块,用于在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;
解析确定模块,用于解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;
查询获取模块,用于查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;
比对输出模块,比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
此外,为实现上述目的,本发明还提供一种内容分析查询设备,所述内容分析查询设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容分析查询对应的计算机程序,所述内容分析查询对应的计算机程序被所述处理器执行时实现如上所述的内容分析查询方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有内容分析查询对应的计算机程序,所述内容分析查询对应的计算机程序被处理器执行时实现如上所述的内容分析查询方法的步骤。
本发明提供一种内容分析查询方法、装置、设备和计算机存储介质,本发明实施例中在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。本发明实施例中通过自动解析目标内容确定目标内容的关键词,然后,根据目标内容的关键词确定目标内容的内容主题,根据内容主题进行内容查询,获得与目标内容相似的关联内容,并自动输出内容的相似信息和差异信息,不需要人工进行内容分析,减少了人力资源的浪费,提高了内容查询的效率和准确率,方便用户查看内容分析查询结果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明内容分析查询方法第一实施例中预设主题抽取模型构建的流程示意图;
图3为本发明内容分析查询方法第一实施例的流程示意图;
图4为本发明内容分析查询装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例内容分析查询设备可以是服务器设备,如图1所示,该内容分析查询设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作网络通信模块、用户接口模块以及内容分析查询对应的计算机程序。
在图1所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的内容分析查询对应的计算机程序,并执行下述内容分析查询方法中的操作。
基于上述硬件结构,提出本发明内容分析查询方法实施例。
本发明内容分析查询方法的第一实施例包括:
在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;
解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;
查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;
比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
在本实施例中内容分析查询方法应用在内容查询设备,内容查询设备的具体的种类不作限定,例如,内容查询设备可以是终端或者服务器,内容查询设备中预先构建预设主题抽取模型,内容查询设备通过预设主题抽取模型处理目标内容,获得目标内容的内容主题,以根据目标内容的内容主题进行内容自动查询分析。
参照图2,图2为内容分析查询方法第一实施例中预设主题抽取模型构建的流程示意图;本实施例中预先构建预设主题抽取模型的步骤具体包括:
步骤S01,在接收到模型构建请求时,获取初始主题抽取模型,将本地存储中的内容进行标记形成训练样本集。
内容查询设备在接收到模型构建请求时,获取初始主题抽取模型,内容查询设备将本地存储中的内容进行标记形成训练样本集。即,内容查询设备输出内容,提示用户对内容进行关键词和主题标注,内容分析查询设备将标注的内容作为主题训练样本,内容查询设备将各个主题训练样本组成训练样本集。
步骤S02,从所述训练样本集中抽取主题训练样本,通过所述主题训练样本训练所述初始主题抽取模型,获得训练后的主题抽取模型和主题特征向量。
内容查询设备从训练样本集中抽取预设比例(预设比例可以根据具体场景设置,例如预设比例设置为5%)的主题训练样本,内容查询设备通过主题训练样本训练初始主题抽取模型,获得训练后的主题抽取模型和主题特征向量。
步骤S03,通过预设损失函数处理所述主题特征向量,获得损失值,分析所述损失值确定训练后的主题抽取模型是否收敛。
内容查询设备中预设损失函数,预设损失函数可以根据模型构建,内容查询设备将训练形成的主题特征向量输入至预设损失函数,通过预设损失函数处理主题特征向量,获得损失值,内容查询设备将损失值,将损失值与预设损失值(预设损失值可以根据梯度设置)进行比较判断训练得到的主题抽取模型;若损失值小于预设损失值则判定主题抽取模型收敛;若损失值大于或等于预设损失值则判定主题抽取模型没有收敛。
步骤S04,在检测到训练的主题抽取模型收敛时,将训练得到的主题抽取模型作为预设主题抽取模型输出。
内容查询设备检测到损失值小于预设损失值时,判定主题抽取模型收敛内容查询设备将训练得到的主题抽取模型作为预设主题抽取模型输出。本实施例中内容查询设备通过将模型充分学习,使得预设主题抽取模型抽取的主题更加准确。
参照图3,图3为本发明内容分析查询方法第一实施例的流程示意图,在本实施例中所述内容分析查询方法包括:
步骤S10,在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容。
内容查询设备接收内容查询请求,内容查询请求的触发方式不作具体限定,即,内容查询请求可以是用户主动触发的,例如,用户点击内容查询设备显示页面上的“内容查询”按键,主动触发内容查询请求;此外,内容查询请求还可以是自动触发的,例如,内容查询设备预先设置:接收到新的检索内容时,自动触发内容查询请求。
内容查询设备接收内容查询请求,内容查询设备获取内容查询请求关联的目标内容,目标内容的具体内容和格式不作限制,例如,目标内容可以是文本文档格式、PDF(Portable Document Format的简称,意为“便携式文档格式)或图片格式等。
步骤S20,解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题。
内容查询设备解析目标内容获得目标内容中的关键词,内容查询设备根据关键词确定目标内容的内容主题,具体地,包括:
步骤a1,通过预设主题抽取模型对所述目标内容进行分词处理,获得所述目标内容对应的词语集合,去除所述词语集合中的噪声词,获得所述目标内容中的关键词;
步骤a2,获取所述关键词的位置信息和频率信息,通过预设主题抽取模型根据所述关键词的位置信息和频率信息确定所述目标内容的内容主题。
内容查询设备通过预设主题抽取模型对目标内容进行分词处理,获得目标内容对应的词语集合,内容查询设备去除词语集合中的噪声词,获得目标内容中的关键词;内容查询设备关键词的位置信息和频率信息,内容查询设备通过预设主题抽取模型处理关键词的位置信息和频率信息确定目标内容的内容主题。
即,本实施例中内容查询设备利用预设主题抽取模型,对目标内容的内容进行语义分析,统计每一句的主题,主题统计是根据一系列的相同语义的关键词出现的位置,次数,频率。来确定这句话或这段话是否符合一个或多个主题。如果是多个主题,还可以统计出各个主题的权数。例如:主题A的关键词A1出现了2次,而主题B的关键词B1出现了1次,则可以粗略的算出主题A权数是2/3,主题B权数为1/3。
步骤S30,查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容。
内容查询设备根据NLP(Neuro-Linguistic Programming,自然语言处理)技术,提取目标内容的族类信息、技术领域、关键词和应用场景等信息,内容查询设备按照族类信息,技术领域,关键词、应用场景等信息把预存内容数据库进行聚类分类;内容查询设备获取与目标内容相同聚类(相同聚类可以是相同技术领域信息、相同场景或者相同关键词)的预存内容,内容查询设备获取预存内容的内容主题,内容查询设备将目标内容的内容主题和/或关键词与预存内容的内容主题和/或关键词进行比对,获取与目标内容的内容主题和/或关键词相似的关联内容,具体地,内容查询设备计算目标内容与内容数据库中预存内容的关键词相似度和/或主题相似度,内容查询设备将关键词相似度和/或主题相似度进行权重分析,确定综合相似度,内容查询设备将综合相似度最高的预存内容作为关联内容。
即,内容查询设备对预存内容的内容进行语义分析,统计每一句的主题。主题统计是根据一系列的相同语义的关键词出现的位置,次数,频率,来确定这句话或这段话是否符合一个或多个主题,如果是多个主题,还可以统计出各个主题的权数。例如:预存内容的主题A的关键词A1出现了2次,而主题B的关键词B1出现了1次,则可以粗略的算出主题A权数是2/3,主题B权数为1/3,内容查询设备将目标内容的内容主题与预存内容的内容主题进行相似度比较时,确定各个内容的主题相似度,内容查询设备将各个主题相似度乘以内容主题对应的权利,得到综合相似度,内容查询设备将综合相似度最高的预存内容作为关联内容。
步骤S40,比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
内容查询设备比对目标内容与关联内容,获得目标内容与关联内容的相似信息和差异信息并输出,具体地,包括:
步骤b1,比对所述目标内容与所述关联内容,将所述目标内容的内容主题划分为相似内容主题和差异内容主题;
步骤b2,将所述相似内容主题和所述相似内容主题对应的关键字作为相似信息输入至预设模板中的相似显示区域,将所述差异内容主题和所述差异内容主题对应的关键字作为差异信息输入至预设模板中的区别显示区域,形成内容分析表。
内容查询设备比对目标内容与关联内容,将目标内容的内容主题划分为相似内容主题(相似内容主题是指目标内容与关联内容中都包含的内容主题)和差异内容主题(差异内容主题是指目标内容中包含的内容主题,关联内容中不包括的内容主题);内容查询设备获取相似内容主题和相似内容主题对应的关键字,并将相似内容主题和相似内容主题对应的关键字作为相似信息输入至预设模板中的相似显示区域,内容查询设备获取差异内容主题和差异内容主题对应的关键字,并将差异内容主题和差异内容主题对应的关键字作为差异信息输入至预设模板中的区别显示区域,形成内容分析表,方便用户查看内容查询结果。
本实施例中通过自动解析目标内容确定目标内容的关键词,然后,根据目标内容的关键词确定目标内容的内容主题,根据内容主题进行内容查询,获得与目标内容相似的关联内容,并自动输出内容的相似信息和差异信息,不需要人工进行内容分析,减少了人力资源的浪费,提高了内容查询的效率和准确率,方便用户查看内容分析查询结果。
在本发明内容分析查询方法第一实施例的基础上,提出了本发明内容分析查询方法第二实施例。
本实施例是第一实施例中步骤S10之后步骤,本实施例与上述实施例的区别在于:
获取所述目标内容的内容格式;
在所述目标内容的内容格式不是文本文档格式时,调用预设OCR模型对所述目标内容进行检测,确定所述目标内容中的文本区域,并获取所述文本区域中包含的字符信息,以将所述目标内容转化为文本文档格式;
在所述目标内容的内容格式是文本文档格式时,执行所述解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤。
内容查询设备获取目标内容的内容格式;在目标内容的内容格式不是文本文档格式(文本文档格式例如doc、txt格式)时,内容查询设备调用预设OCR模型(预设OCR(OpticalCharacter Recognition,光学字符识别)模型是指预先设置的字符识别模型)对目标内容进行检测,内容查询设备确定目标内容中的文本区域,内容查询设备获取文本区域中包含的字符信息,文本文档格式将目标内容转化为文本文档格式,方便进行内容查询和挖掘;在目标内容的内容格式是文本文档格式时,内容查询设备执行第一实施例中的步骤S20:解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤。本实施中内容查询设备可以针对不同格式的目标内容进行相似查询,挖掘内容的差异,使得目标内容分析更加全面便捷。
在本发明内容分析查询方法上述实施例的基础上,提出了本发明内容分析查询方法第三实施例。
本实施例是第三实施例中步骤S30的细化步骤,本实施例与上述实施例的区别在于:
查询预设数据库,获取所述预设数据库中与所述目标内容相同技术领域的预存内容;
通过预设主题抽取模型对所述预存内容进行分析,获得所述预存内容的内容主题和所述内容主题对应的关键词;
在所述目标内容中包含至少两个内容主题和/或所述内容主题中包含至少两个关键词时,计算所述目标内容的内容主题和/或关键词与所述预存内容的内容主题和/或关键词的主题相似度和/或词相似度;
将所述主题相似度和/或所述词相似度进行加权运算,获得所述目标内容与所述预存内容的综合相似度,将与所述目标内容综合相似度高于预设阈值的预存内容作为关联内容。
内容查询设备获取目标内容的技术领域信息,内容查询设备查询预存内容数据库,获取预存内容数据库中技术领域信息相同的预存内容。本实施例中仅对与目标内容技术领域相同的预存内容进行分析,减少了内容分析查询量,同时有效保证内容分析查询准确度,内容查询设备通过预设主题抽取模型对预存内容进行分析,获得设内容的内容主题;在目标内容中包含至少两个内容主题和/或内容主题中包含两个关键词时,内容查询设备计算目标内容的各内容主题与所内容的各内容主题的主题相似度,和/或内容查询设备计算目标内容的各内容主题中关键词与所内容的各内容主题中关键词的词相似度;内容查询设备将各主题相似度和/或词相似度进行加权运算,获得目标内容与所述预存内容的综合相似度,内容查询设备将与目标内容综合相似度高于预设阈值(预设阈值可以根据查询准确度灵活设置,例如设置为80)的预存内容作为关联内容。
内容查询设备利用NLP(自然语言处理)技术,对目标内容进行主题和关键词进行分析抽取,内容查询设备把目标内容的主题及关键词,以及各个主题的权数与库中的文档的主题及关键词和权数进行比对,挖掘出与本目标内容具有相似主题的关联内容,并且通过主题及关键词和各个主题的权数,计算出内容之间的综合相似度。内容查询设备将与目标内容综合相似度高于预设阈值(预设阈值可以根据查询准确度灵活设置,例如设置为80%)的预存内容作为关联内容。本实施例中根据各个内容的内容主题确定综合相似度,从而确定关联内容,使得关联内容的查询更加准确。
例如:目标内容一共有6个主题,每个主题底下有5个关键词,主题A权数为30%,主题B权数20%,主题C权数为15%,主题D权数为15%,主题E权数为10%,主题F权数为10%。与库中文档进行比较以后发现与这6个主题都相似的文档0,5个主题相似的的文档有5个,综合相似度分别为84%、75%、90%、68%和77%,内容查询设备中预设阈值为80%,内容查询设备将综合相似度为84%和90%的预存内容作为关联内容。
在本发明内容分析查询方法上述实施例的基础上,提出了本发明内容分析查询方法第四实施例。
本实施例是第四实施例中步骤S40之后步骤,本实施例与上述实施例的区别在于:
获取所述相似信息在所述目标内容中的信息量占比,在所述信息量占比小于预设占比阈值时,确定所述差异信息是否被所述预存内容数据库中除所述关联内容之外的其他内容公开;
若所述差异信息未被所述预存内容数据库中除所述关联内容之外的其他内容公开,则分析所述差异信息在所述目标内容的影响因子并输出;
若所述差异信息被所述预存内容数据库中除所述关联内容之外的其他内容公开,则输出所述预存内容数据库中公开所述差异信息的差异内容。
本实施了中内容查询设备获取相似信息在目标内容中的信息量占比,在所述信息量占比小于预设占比阈值(预设占比阈值可以根据具场景设置,例如设置为90%)时,内容查询设备确定差异信息是否被预存内容数据库中除关联内容之外的其他内容公开;若差异信息未被预存内容数据库中除所述关联内容之外的其他内容公开,内容查询设备则分析差异信息在所述目标内容的影响因子(影响因子可以根据不同的因素灵活设置)并输出;若差异信息预存内容数据库中除关联内容之外的其他内容公开,内容查询设备则输出所述预存内容数据库中公开所述差异信息的差异内容。
本实施例中将差异信息进行二次查询,并显示差异内容,这样减少了用户二次查询的步骤,同时使得差异挖掘更加到位,此外,本实施例中在差异信息没有被公开时,可以确定差异信息的影响因子,从而判定目标内容的价值,不需要人为地进行信息分析,使得内容挖掘更加到位。
参照图4,图4为本发明内容分析查询装置一实施例的功能模块示意图;本发明还提供一种内容分析查询装置,所述内容分析查询装置包括:
请求接收模块10,用于在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;
解析确定模块20,用于解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;
查询获取模块30,用于查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;
比对输出模块40,比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
在一实施例中,所述查询获取模块包括:
查询获取单元,用于查询预设数据库,获取所述预设数据库中与所述目标内容相同技术领域的预存内容;通过预设主题抽取模型对所述预存内容进行分析,获得所述预存内容的内容主题和所述内容主题对应的关键词;
相似度计算单元,用于在所述目标内容中包含至少两个内容主题和/或所述内容主题中包含至少两个关键词时,计算所述目标内容的内容主题和/或关键词与所述预存内容的内容主题和/或关键词的主题相似度和/或词相似度;
内容确定单元,用于将所述主题相似度和/或所述词相似度进行加权运算,获得所述目标内容与所述预存内容的综合相似度,将与所述目标内容综合相似度高于预设阈值的预存内容作为关联内容。
在一实施例中,所述比对输出模块40,包括:
主题划分用于,用于比对所述目标内容与所述关联内容,将所述目标内容的内容主题划分为相似内容主题和差异内容主题;
输入生成单元,用于将所述相似内容主题和所述相似内容主题对应的关键字输入作为相似信息至预设模板中的相似显示区域,将所述差异内容主题和所述差异内容主题对应的关键字作为差异信息输入至预设模板中的区别显示区域,形成内容分析表。
在一实施例中,所述内容分析查询装置,包括:
获取判断模块,用于获取所述相似信息在所述目标内容中的信息量占比,在所述信息量占比小于预设占比阈值时,确定所述差异信息是否被所述预存内容数据库中除所述关联内容之外的其他内容公开;
第一输出用于,用于若所述差异信息未被所述预存内容数据库中除所述关联内容之外的其他内容公开,则分析所述差异信息在所述目标内容的影响因子并输出;
第二输出模块,用于若所述差异信息被所述预存内容数据库中除所述关联内容之外的其他内容公开,则输出所述预存内容数据库中公开所述差异信息的差异内容。
在一实施例中,所述解析确定模块包括:
关键字获取单元,用于通过预设主题抽取模型对所述目标内容进行分词处理,获得所述目标内容对应的词语集合,去除所述词语集合中的噪声词,获得所述目标内容中的关键词;
主题确定单元,用于获取所述关键词的位置信息和频率信息,通过预设主题抽取模型根据所述关键词的位置信息和频率信息确定所述目标内容的内容主题。
在一实施例中,所述内容分析查询装置包括:
主题抽取模块,用于样本标记在接收到模型构建请求时,获取初始主题抽取模型,将本地存储中的内容进行标记形成训练样本集;
模型训练模块,用于从所述训练样本集中抽取主题训练样本,通过所述主题训练样本训练所述初始主题抽取模型,获得训练后的主题抽取模型和主题特征向量;
损失值确定模块,用于通过预设损失函数处理所述主题特征向量,获得损失值,分析所述损失值确定训练后的主题抽取模型是否收敛;
模型输出模块,用于在检测到训练的主题抽取模型收敛时,将训练得到的主题抽取模型作为预设主题抽取模型输出。
在一实施例中,所述内容分析查询装置包括:
格式获取模块,用于获取所述目标内容的内容格式;
格式装换模块,用于在所述目标内容的内容格式不是文本文档格式时,调用预设OCR模型对所述目标内容进行检测,确定所述目标内容中的文本区域,并获取所述文本区域中包含的字符信息,以将所述目标内容转化为文本文档格式;
在所述目标内容的内容格式是文本文档格式时,执行所述解析确定模块20:解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤。
其中,在所述处内容分析查询装置被执行时所实现的方法可参照本发明内容分析查询方法各个实施例,此处不再赘述。
本实施例中通过自动解析目标内容确定目标内容的关键词,然后,根据目标内容的关键词确定目标内容的内容主题,根据内容主题进行内容查询,获得与目标内容相似的关联内容,并自动输出内容的相似信息和差异信息,不需要人工进行内容分析,减少了人力资源的浪费,提高了内容查询的效率和准确率,方便用户查看内容分析查询结果本发明还提供一种计算机存储介质。
本发明计算机存储介质上存储有内容分析查询对应的计算机程序,所述内容分析查询对应的计算机程序被处理器执行时实现如上所述的内容分析查询方法的步骤。
其中,在所述处理器上运行的内容分析查询对应的计算机程序被执行时所实现的方法可参照本发明内容分析查询方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种内容分析查询方法,其特征在于,所述内容分析查询方法包括如下步骤:
在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;
解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;
查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;
比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
2.如权利要求1所述的内容分析查询方法,其特征在于,所述查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容的步骤,包括:
查询预设数据库,获取所述预设数据库中与所述目标内容相同技术领域的预存内容;
通过预设主题抽取模型对所述预存内容进行分析,获得所述预存内容的内容主题和所述内容主题对应的关键词;
在所述目标内容中包含至少两个内容主题和/或所述内容主题中包含至少两个关键词时,计算所述目标内容的内容主题和/或关键词与所述预存内容的内容主题和/或关键词的主题相似度和/或词相似度;
将所述主题相似度和/或所述词相似度进行加权运算,获得所述目标内容与所述预存内容的综合相似度,将与所述目标内容综合相似度高于预设阈值的预存内容作为关联内容。
3.如权利要求2所述的内容分析查询方法,其特征在于,所述比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出的步骤,包括:
比对所述目标内容与所述关联内容,将所述目标内容的内容主题划分为相似内容主题和差异内容主题;
将所述相似内容主题和所述相似内容主题对应的关键字作为相似信息输入至预设模板中的相似显示区域,将所述差异内容主题和所述差异内容主题对应的关键字作为差异信息输入至预设模板中的区别显示区域,形成内容分析表。
4.如权利要求1所述的内容分析查询方法,其特征在于,所述比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出的步骤之后,所述方法还包括:
获取所述相似信息在所述目标内容中的信息量占比,在所述信息量占比小于预设占比阈值时,确定所述差异信息是否被所述预存内容数据库中除所述关联内容之外的其他内容公开;
若所述差异信息未被所述预存内容数据库中除所述关联内容之外的其他内容公开,则分析所述差异信息在所述目标内容的影响因子并输出;
若所述差异信息被所述预存内容数据库中除所述关联内容之外的其他内容公开,则输出所述预存内容数据库中公开所述差异信息的差异内容。
5.如权利要求1所述的内容分析查询方法,其特征在于,所述解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤,包括:
通过预设主题抽取模型对所述目标内容进行分词处理,获得所述目标内容对应的词语集合,去除所述词语集合中的噪声词,获得所述目标内容中的关键词;
获取所述关键词的位置信息和频率信息,通过预设主题抽取模型根据所述关键词的位置信息和频率信息确定所述目标内容的内容主题。
6.如权利要求5所述的内容分析查询方法,其特征在于,所述通过预设主题抽取模型对所述预存内容进行分析,获得所述预存内容的内容主题和所述内容主题对应的关键词的步骤之前,所述方法包括:
在接收到模型构建请求时,获取初始主题抽取模型,将本地存储中的内容进行标记形成训练样本集;
从所述训练样本集中抽取主题训练样本,通过所述主题训练样本训练所述初始主题抽取模型,获得训练后的主题抽取模型和主题特征向量;
通过预设损失函数处理所述主题特征向量,获得损失值,分析所述损失值确定训练后的主题抽取模型是否收敛;
在检测到训练的主题抽取模型收敛时,将训练得到的主题抽取模型作为预设主题抽取模型输出。
7.如权利要求1至6任意一项所述的内容分析查询方法,其特征在于,所述在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容的步骤之后,所述方法还包括:
获取所述目标内容的内容格式;
在所述目标内容的内容格式不是文本文档格式时,调用预设OCR模型对所述目标内容进行检测,确定所述目标内容中的文本区域,并获取所述文本区域中包含的字符信息,以将所述目标内容转化为文本文档格式;
在所述目标内容的内容格式是文本文档格式时,执行所述解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题的步骤。
8.一种内容分析查询装置,其特征在于,所述内容分析查询装置包括:
请求接收模块,用于在接收到内容分析请求时,获取所述内容分析请求携带的待分析的目标内容;
解析确定模块,用于解析所述目标内容获得所述目标内容中的关键词,根据所述关键词确定所述目标内容的内容主题;
查询获取模块,用于查询预设数据库,获取与所述目标内容的内容主题和/或关键词相似的关联内容;
比对输出模块,比对所述目标内容与所述关联内容,获得所述目标内容与所述关联内容的相似信息和差异信息并输出。
9.一种内容分析查询设备,其特征在于,所述内容分析查询设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容分析查询对应的计算机程序,所述内容分析查询对应的计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的内容分析查询方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有内容分析查询对应的计算机程序,所述内容分析查询对应的计算机程序被处理器执行时实现如权利要求1至7中任一项所述的内容分析查询方法的步骤。
CN202010363945.5A 2020-04-30 2020-04-30 内容分析查询方法、装置、设备和计算机存储介质 Pending CN111552783A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010363945.5A CN111552783A (zh) 2020-04-30 2020-04-30 内容分析查询方法、装置、设备和计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010363945.5A CN111552783A (zh) 2020-04-30 2020-04-30 内容分析查询方法、装置、设备和计算机存储介质

Publications (1)

Publication Number Publication Date
CN111552783A true CN111552783A (zh) 2020-08-18

Family

ID=72006172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010363945.5A Pending CN111552783A (zh) 2020-04-30 2020-04-30 内容分析查询方法、装置、设备和计算机存储介质

Country Status (1)

Country Link
CN (1) CN111552783A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905080A (zh) * 2021-03-01 2021-06-04 联想(北京)有限公司 处理方法及装置
CN115455149A (zh) * 2022-09-20 2022-12-09 城云科技(中国)有限公司 基于编码查询方式的数据库构建方法及其应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348393A (ja) * 2003-05-21 2004-12-09 Japan Science & Technology Agency テキストデータベースコンテンツの差分情報検出方法
JP2009193219A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> インデックス作成装置、その方法、プログラム及び記録媒体
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及系统
CN106991488A (zh) * 2015-11-16 2017-07-28 Uberple有限公司 关键词和资产价值的关联性评估方法及其装置
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109903198A (zh) * 2019-01-24 2019-06-18 南京邮电大学 专利对比分析方法
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348393A (ja) * 2003-05-21 2004-12-09 Japan Science & Technology Agency テキストデータベースコンテンツの差分情報検出方法
JP2009193219A (ja) * 2008-02-13 2009-08-27 Nippon Telegr & Teleph Corp <Ntt> インデックス作成装置、その方法、プログラム及び記録媒体
CN102156711A (zh) * 2011-03-08 2011-08-17 国网信息通信有限公司 一种基于云存储的电力全文检索方法及系统
CN106991488A (zh) * 2015-11-16 2017-07-28 Uberple有限公司 关键词和资产价值的关联性评估方法及其装置
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法
CN108804641A (zh) * 2018-06-05 2018-11-13 鼎易创展咨询(北京)有限公司 一种文本相似度的计算方法、装置、设备和存储介质
CN109657227A (zh) * 2018-10-08 2019-04-19 平安科技(深圳)有限公司 合同可行性判定方法、设备、存储介质及装置
CN109903198A (zh) * 2019-01-24 2019-06-18 南京邮电大学 专利对比分析方法
CN110457690A (zh) * 2019-07-26 2019-11-15 南京邮电大学 一种专利创造性的判断方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905080A (zh) * 2021-03-01 2021-06-04 联想(北京)有限公司 处理方法及装置
CN115455149A (zh) * 2022-09-20 2022-12-09 城云科技(中国)有限公司 基于编码查询方式的数据库构建方法及其应用
CN115455149B (zh) * 2022-09-20 2023-05-30 城云科技(中国)有限公司 基于编码查询方式的数据库构建方法及其应用

Similar Documents

Publication Publication Date Title
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN109872162B (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN108027814B (zh) 停用词识别方法与装置
CN107402912B (zh) 解析语义的方法和装置
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
CN111198939B (zh) 语句相似度的分析方法、装置及计算机设备
CN110210038B (zh) 核心实体确定方法及其系统、服务器和计算机可读介质
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN111552783A (zh) 内容分析查询方法、装置、设备和计算机存储介质
CN111444349A (zh) 信息抽取方法、装置、计算机设备和存储介质
CN111612081A (zh) 识别模型的训练方法、装置、设备及存储介质
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
CN113450147B (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN116644183B (zh) 文本分类方法、装置及存储介质
CN115801455B (zh) 一种基于网站指纹的仿冒网站检测方法及装置
CN111563212A (zh) 一种内链添加方法及装置
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
CN105677827B (zh) 一种表单的获取方法及装置
CN112735465B (zh) 无效信息确定方法、装置、计算机设备及存储介质
CN114780678A (zh) 文本检索方法、装置、设备及存储介质
CN115437930A (zh) 网页应用指纹信息的识别方法及相关设备
CN112784594B (zh) 一种文档处理方法、装置、电子设备及可读存储介质
CN113268588A (zh) 文本摘要提取方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination