CN113076735B - 目标信息的获取方法、装置和服务器 - Google Patents
目标信息的获取方法、装置和服务器 Download PDFInfo
- Publication number
- CN113076735B CN113076735B CN202110493701.3A CN202110493701A CN113076735B CN 113076735 B CN113076735 B CN 113076735B CN 202110493701 A CN202110493701 A CN 202110493701A CN 113076735 B CN113076735 B CN 113076735B
- Authority
- CN
- China
- Prior art keywords
- text
- sentence
- target
- sentences
- event
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 95
- 239000013598 vector Substances 0.000 claims abstract description 209
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000012216 screening Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 35
- 238000000605 extraction Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- CBENFWSGALASAD-UHFFFAOYSA-N Ozone Chemical compound [O-][O+]=O CBENFWSGALASAD-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本说明书提供了目标信息的获取方法、装置和服务器。先获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量:获取第一语料文本,并拆分成多个文本语句;再从多个文本语句中筛选出关键文本语句,并确定出对应的句子向量;根据预设的计算规则,利用关键文本语句与目标事件语句的句子向量,计算得到基于事件维度的相似度参数;根据相似度参数判断第一语料文本是否属于与目标事件语句关联的目标文本;在确定第一语料文本属于目标文本时,再根据关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。从而可以高效、准确地找出与涉及目标人物的目标事件关联紧密的目标文本,并从中提取出较为重要的目标信息。
Description
技术领域
本说明书属于人工智能技术领域,尤其涉及目标信息的获取方法、装置和服务器。
背景技术
随着信息技术的发展,人们每天都会面临海量待浏览的语料文本数据(例如,新闻报道、论坛文章等等)。
基于现有方法,往往需要用户自己耗费大量的时间和精力,处理上述语料文本数据,以从海量的语料文本数据中找出与自己所关注的涉及目标人物的目标事件关联紧密的语料文本数据;再从所找出的语料文本数据中进一步提取出相对较为核心的数据信息作为目标信息,以便后续可以进行诸如信息汇总等相关数据处理。
可见,基于现有方法在处理语料文本数据、提取目标信息时往往相对较为繁琐,需要耗费大量的时间和精力,提取信息的效率较低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本说明书提供了一种目标信息的获取方法、装置和服务器,以能够从大量的第一语料文本中高效、准确地找出与用户所关注的涉及目标人物的目标事件关联较紧密的目标文本;再基于该目标文本进一步提取得到基于事件维度用户所关注的较为核心、精准的目标信息。
本说明书提供了一种目标信息的获取方法,包括:
获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;
根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;
根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;
在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
在一个实施例中,所述第一语料文本包括多个语料文本;相应的,所述目标信息包括多个目标信息。
在一个实施例中,在生成基于事件维度的与目标事件语句关联的目标信息之后,所述方法还包括:
组合所述目标事件语句,以及多个目标信息,以生成用于表征目标事件的事件进展情况的目标事件图谱。
在一个实施例中,在将所述第一语料文本中拆分为多个文本语句之后,所述方法还包括:
调用预设的依存句法分析器分别处理各个文本语句所包含的多个词素,以确定出文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系;
根据文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系,确定出文本语句中的无意义词素;
通过过滤文本语句中的无意义词素,对文本语句进行预处理。
在一个实施例中,从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句,包括:
调用预设的语义识别模型分别处理多个文本语句,并通过预设的语义识别模型导出在处理多个文本语句的过程中所生成的多个文本语句的语义特征向量;
调用预设的语义识别模型处理目标事件语句,并通过预设的语义识别模型导出在处理目标事件语句的过程中所生成的目标事件语句的语义特征向量;
计算文本语句的语义特征向量与目标事件语句的语义特征向量之间的向量距离;
根据所述向量距离,从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句。
在一个实施例中,确定出关键文本语句的句子向量,包括:
利用预设的word2vec模型处理所述关键文本语句中的多个词素,得到对应的多个词向量;
根据基于WordAvg的组合规则,组合所述多个词向量,得到关键文本语句的句子向量。
在一个实施例中,根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数,包括:
根据预设的计算规则,去除关键文本语句的句子向量中的第一类词素的词向量和第二类词素的词向量,得到处理后的句子向量;其中,所述第一类词素为表征人物的词素;所述第二类词素为表征地点的词素;
根据处理后的句子向量和目标事件语句的句子向量,通过进行多维余弦计算,得到对应的余弦值,作为所述关键文本语句和目标事件语句基于事件维度的相似度参数。
在一个实施例中,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息,包括:
确定出第一语料文本中的第一类词素和第二类词素;
统计第一语料文本中各个第一类词素的出现频率、各个第二类词素的出现频率;
筛选出出现频率最大的第一类词素作为第一关键词素;筛选出出现频率最大的第二类词素作为第二关键词素;
根据预设的拼接规则,将所述关键文本语句、所述第一关键词素、所述第二关键词素进行拼接处理,以得到所述目标信息。
在一个实施例中,所述方法还包括:
确定第一语料文本所包含的多个文本语句的句子向量;
根据所述多个文本语句的句子向量,生成第一语料文本的文本向量;
根据所述第一语料文本的文本向量,确定所述第一语料文本是否存在抄袭风险。
在一个实施例中,根据所述第一语料文本的文本向量,确定所述第一语料文本是否存在抄袭风险,包括:
确定预设的数据库中所保存的多个历史语料文本的文本向量;
根据所述第一语料文本的文本向量和所述多个历史语料文本的文本向量,计算各个历史语料文本与第一语料文本的相似度参数;
检测预设的数据库中是否存在至少一个历史语料文本与第一语料文本的相似度参数大于预设的相似度参数阈值;
在确定预设的数据库中至少存在一个历史语料文本与第一语料文本的相似度参数大于预设的相似度参数阈值的情况下,确定所述第一语料文本存在抄袭风险。
在一个实施例中,获取与目标人物相关的目标事件语句,包括:
从目标数据源中采集包含有目标人物的初始语料文本;
根据所述初始语料文本,确定出与目标人物相关的目标事件语句。
在一个实施例中,所述第一语料文本包括:从除目标数据源以外的其他数据源采集得到的文章、新闻、通告。
本说明书还提供了一种目标信息的获取装置,包括:
第一确定模块,用于获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
获取模块,用于获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
筛选模块,用于从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;
计算模块,用于根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;
第二确定模块,用于根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;
提取模块,用于在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
本说明书还提供了一种目标文本的确定方法,包括:
获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;
根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;
根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本。
本说明书还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述目标信息的获取方法的相关步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现所述目标信息的获取方法的相关步骤。
本说明书提供的一种目标信息的获取方法、装置和服务器,基于该方法,可以先获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量:同时获取第一语料文本,并将第一语料文本拆分成多个文本语句;再从多个文本语句中筛选出相对贡献度较高的关键文本语句,并确定出关键文本语句的句子向量;然后可以根据预设的计算规则,利用关键文本语句的句子向量与目标事件语句的句子向量,计算得到基于事件维度的相似度参数;再根据上述相似度参数,判断第一语料文本是否属于与目标事件语句关联的目标文本;在确定第一语料文本属于目标文本的情况下,进而可以根据关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。从而可以从大量第一语料文本中高效、准确地找出与用户所关注的涉及目标人物的目标事件关联较紧密的目标文本;再从该目标文本中进一步提取得到较为精准的基于事件维度较为核心的目标信息。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的目标信息的获取方法的系统的结构组成的一个实施例的示意图;
图2是本说明书的一个实施例提供的目标信息的获取方法的流程示意图;
图3是本说明书的一个实施例提供的服务器的结构组成示意图;
图4是本说明书的一个实施例提供的目标信息的获取装置的结构组成示意图;
图5是在一个场景示例中,应用本说明书实施例提供的目标信息的获取方法的一种实施例的示意图;
图6是在一个场景示例中,应用本说明书实施例提供的目标信息的获取方法的一种实施例的示意图;
图7是在一个场景示例中,应用本说明书实施例提供的目标信息的获取方法的一种实施例的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种目标信息的获取方法,该方法具体可以应用于包含有服务器和终端设备的系统中。具体可以参阅图1所示。终端设备和服务器可以通过有线或无线的方式相连,以进行具体的数据交互。
在本实施例中,所述服务器具体可以包括一种应用于网络平台一侧,能够实现数据传输、数据处理等功能的后台负服务器。具体的,所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器所包含的服务器数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在本实施例中,所述终端设备具体可以包括一种应用于用户一侧,能够实现数据采集、数据传输等功能的前端设备。具体的,所述终端设备例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者,所述终端设备也可以为能够运行于上述电子设备中的软件应用。例如,可以是在智能手机上运行的某APP等。
具体的,用户可以通过终端设备设置与所关注的目标人物相关的目标事件语句。例如,用户可以在终端设备侧输入“董事长王某指示全公司开展一帮一活动”作为目标事件语句,其中,所涉及到的目标人物为“董事长王某”,目标事件为“指示全公司开展一帮一活动”。终端设备接收上述目标事件语句,并将上述目标事件语句发送至服务器。
相应的,服务器接收获取上述目标事件语句,并确定出该目标事件语句的句子向量。
具体的,服务器可以先调用事先利用大量语料数据训练好的预设的word2vec模型处理目标事件语句所包含的多个词素(例如,目标事件语句中所包含的以下多个词组:董事长、王某、指示、全公司、开展、一帮一、活动),得到多个词素的词向量;再根据预设的组合规则,例如,基于WordAvg的组合规则,组合上述多个词素的词向量,从而得到目标事件语句的句子向量。
然后,服务器可以先从所接入的数据源(例如,XX门户网站、YY新闻日报,或者ZZ论坛等)中采集诸如文章、新闻、通告等大量的文本数据作为待处理的第一语料文本。再从上述大量的第一语料文本中找出基于事件维度与目标事件语句关联紧密的目标文本。并从上述目标文本中进一步提取出基于事件维度与目标事件语句关联的、用户较为关注的核心要素信息作为目标信息,以提供给用户。
具体的,以处理一个第一语料文本为例。服务器可以先将第一语料文本拆分为多个文本语句。其中,每一个文本语句又分别包含有多个词素。
接着,服务器可以对上述多个文本语句进行预处理,以过滤文本语句中无意义的词素,得到相对较为精简、数据量较少的预处理后的文本语句。
具体的,首先,服务器可以调用基于神经网络的预设的依存句法分析器分别处理多个文本语句中的各个文本语句所包含的多个词素,以确定出各个文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系。进而,服务器可以根据各个文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系,确定出各个文本语句中的无意义词素。其中,上述无意义词素具体可以是指不表征实际语义的词素,例如,感叹词、语义词、助词、副词等。此外,上述无意义词素也可以包含文本语句中的标点符号,例如,双引号、破折号、单引号等。接着,服务器可以通过过滤文本语句中的无意义词素,对多个文本语句进行预处理,得到预处理后的文本语句。
在得到预处理后的文本语句之后,服务器可以从多个预处理后的文本语句中筛选出基于事件维度的对于第一语料文本的贡献度符合要求的(例如,贡献度最大的)文本语句作为能够代表该第一语料的关键文本语句;并确定出该关键语句的句子向量。
具体的,首先,服务器可以调用预设的语义识别模型分别处理上述多个预处理后的文本语句,并通过预设的语义识别模型导出在处理多个预处理后的文本语句的过程中所生成的多个预处理后的文本语句的语义特征向量。同时,可以调用预设的语义识别模型处理目标事件语句,并通过预设的语义识别模型导出在处理目标事件语句的过程中所生成的目标事件语句的语义特征向量。接着,服务器可以利用预设的排序算法分别计算出预处理后的文本语句的语义特征向量与目标事件语句的语义特征向量之间的向量距离;再根据所述向量距离,对多个预处理后的文本语句按照向量距离由小到大的顺序进行排序,得到排序后的预处理后的文本语句;然后根据排序后的预处理后的文本语句,筛序出排序最靠前的预处理后的文本语句,作为基于事件维度的贡献度符合要求的关键文本语句。例如,找到如下的关键文本语句“传达一帮一活动精神”。
在确定出能够代表第一语料文本的关键文本语句之后,可以通过计算并根据该关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数,以确定该第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本,
具体的,服务器可以先确定出关键文本语句中表征人物的第一类词素,以及表征地点的第二类词素;再根据预设的计算规则,去除关键文本语句的句子向量中的第一类词素的词向量和第二类词素的词向量,得到更注重于表征事件特征的处理后的句子向量;再根据处理后的句子向量和目标事件语句的句子向量,通过进行多维余弦计算,得到对应的余弦值,作为关键文本语句和目标事件语句基于事件维度的相似度参数。
进一步,服务器可以将上述相似度参数与预设的相似度参数阈值进行比较,根据比较结果确定该第一语料文本是否属于目标文本。
如果根据比较结果,确定相似度参数大于预设的相似度参数阈值,可以确定该第一语料文本属于基于事件维度的与目标事件语句紧密关联的目标文本。进而,可以再对该第一语料文本进行后续的提取处理,以提取出相应的目标信息。
相反,如果根据比较结果,确定相似度参数小于或等于预设的相似度参数阈值,则可以确定该第一语料文本不属于目标文本。进而,可以不再对该第一语料文本进行后续的提取处理。
通过上述过程,可以较为高效地自动从大量的第一语料文本中筛序出基于事件维度与目标事件语句关联的属于目标文本的第一语料文本。
进而,服务器可以对上述属于目标文本的第一语料文本进行进一步的提取处理,以提取出基于事件维度的与目标事件语句关联的、较为核心的目标信息。
具体的,服务器可以先确定出第一语料文本中出现的表征人物的第一类词素(例如,“张某”、“郭某”等)和表征地点的第二类词素(例如,“四川”、“XX酒店”等)。再统计第一语料文本中各个第一类词素的出现频率、各个第二类词素的出现频率。接着,从多个第一类词素中筛选出出现频率最大的第一类词素作为第一关键词素,例如“张某”;类似的,从多个第二类词素中筛选出出现频率最大的第二类词素作为第二关键词素,例如“四川”。最后,服务器可以根据预设的拼接规则(例如,按照“人物+地点+事件”的拼接规则)拼接上述关键文本语句、第一关键词素和第二关键词素,得到从第一语料文本中提取出的,较为完整的,与目标事件语句关联紧密的目标信息,例如“张某四川传达一帮一活动精神”。
通过上述过程,服务器可以从属于目标文本的第一语料文本中,进一步较为精准地提取出与目标事件语句关联紧密,相对较为核心的目标信息。
服务器在按照上述方式,提取得到多个目标信息之后,还可以根据目标信息所属的第一语料文本所涉及的时间信息,组合多个目标信息和目标事件语句,从而可以得到能够表征目标事件进展情况的目标事件图谱。例如,“董事长王某指示全公司开展一帮一活动”—>“张某四川传达一帮一活动精神”—>“贾某成都分公司参与一帮一活动”。
进而服务器可以将上述目标事件图谱发送至终端设备。终端设备接收目标事件图谱,并向用户展示出上述目标事件图谱。
基于上述目标事件图谱,用户不需要自己再耗费大量时间和精力,浏览阅读海量的语料文本,就能够根据服务器基于海量语料文本所提供的目标事件图谱,高效、清楚地了解和掌握目标事件的具体进展情况。
参阅图2所示,本说明书实施例提供了一种目标信息的获取方法。其中,该方法具体可以应用于服务器一侧。具体实施时,该方法可以包括以下内容。
S201:获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
S202:获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
S203:从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;
S204:根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;
S205:根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;
S206:在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
通过上述实施例,服务器可以从大量第一语料文本中高效、准确地找出与用户所关注的涉及目标人物的目标事件关联较紧密的目标文本;再基于上述目标文本,进一步提取得到较为精准的基于事件维度与目标事件语句关联度较高、较为核心的目标信息。
在一些实施例中,上述目标人物具体可以理解为用户所关注的人物。上述目标事件语句具体可以理解为包含有目标人物所涉及的事件的文本语句。
在一些实施例中,具体实施时,可以由用户直接设置输入与目标人物相关的目标事件语句。也可以从目标数据源中采集出涉及目标人物的语料文本,再从该语料文本中提取得到上述与目标人物相关的目标事件语句。
其中,上述目标数据源具体可以理解为用户所指定的数据源。具体的,例如,目标数据源可以是用户所指定的某某新闻网站,或者某某企业内部的通讯报刊等等。
在一些实施例中,上述第一语料文本具体可以理解为从除目标数据源以外所接入的其他数据源采集得到的待处理的语料文本。具体的,所述第一语料文本具体可以包括:从除目标数据源以外的其他数据源采集得到的文章、新闻、通告等。
通过上述实施例,可以应用本说明书所提供的目标信息的获取方法适用多种不同的处理场景,以对多种不同类型的第一语料文本进行处理,以提取得到相应的目标信息。
在一些实施例中,上述第一语料文本具体可以由一个或多个文本语句组成,每一个文本语句具体可以由一个或多个词素组成。上述词素具体可以理解为用于构成文本语句的词组单位。
在一些实施例中,上述关键文本语句具体可以理解为在第一语料文本所包含的多个文本语句中,基于事件维度所表征出的内容信息,对于该第一语料文本与目标事件语句之间的关联度所产生的贡献最大的文本语句。也可以理解为,基于事件维度,第一语料文本所包含的多个文本语句中,在反映目标事件的相关情况时,最具代表的文本语句。
在一些实施例中,上述目标文本具体可以理解基于事件维度,所表征出的内容信息与目标事件语句关联度较高的语料文本。
在一些实施例中,上述目标信息具体可以理解为一种基于目标文本所提取出的一个与目标事件语句关联度较高的,相对较为核心的文本语句。通过上述目标信息可以简要且有效地表征出目标文本中所包含的用户相对较为关注,且与目标事件关联紧密的核心信息。例如,基于一篇长达五千字的关于董事长王某董指示全公司开展一帮一活动的新闻报道,最终提取出的目标信息只有以下所示的一个文本语句董事长王某北京总部指示开展一帮一活动。
在一些实施例中,所获取的待处理的第一语料文本具体可以包括多个语料文本;相应的,提取得到的目标信息可以包括多个目标信息。
通过上述实施例,可以应用本说明书所提供的目标信息的获取方法同时对多个第一语料文本进行批量处理,从而能够应对海量的语料文本,高效地找出与目标事件语句关联的目标文本,并进一步基于上述目标文本提取得到与目标事件语句关联的多个目标信息。
在一些实施例中,在生成基于事件维度的与目标事件语句关联的目标信息之后,所述方法具体实施时,还可以包括以下内容:组合所述目标事件语句,以及多个目标信息,以生成用于表征目标事件的事件进展情况的目标事件图谱。
通过上述实施例,可以将基于大量第一语料文本中所提取得到的多个目标信息与目标事件语句进行组合,以得到能够直观、简要地表征出目标事件进展情况的目标事件图谱提供给用户。这样用户不需要再自己耗费大量的时间和精力,浏览、处理海量的第一语料文本,直接根据上述目标事件图谱,就能高效、便捷地了解到所关注的目标事件的事件进展情况。
在一些实施例中,具体实施时,可以先确定出目标事件语句中目标事件的发生时间,以及各个目标信息所对应第一语料文本中所记录的发生时间;进而可以根据发生时间的先后顺序组合目标事件语句和目标信息,以得到基于时间顺序的目标事件图谱。
在一些实施例中,具体实施时,也可以根据目标事件语句中的参与人物,以及各个目标信息所对应的第一语料文本中所涉及到的参与人物,根据参与人物之间的人物关系来组合目标时间语句和目标信息,以及得到基于人物关系的目标事件图谱。
在一些实施例中,具体实施时,服务器可以先检索出第一语料文本中表征句子结束的第一的标点符号(例如,句号、问号、感叹号等);再根据第一标签符号,将第一语料文本拆分成多个文本语句。
在一些实施例中,在将所述第一语料文本中拆分为多个文本语句之后,所述方法具体实施时,还可以包括以下内容:
S1:调用预设的依存句法分析器分别处理各个文本语句所包含的多个词素,以确定出文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系;
S2:根据文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系,确定出文本语句中的无意义词素;
S3:通过过滤文本语句中的无意义词素,对文本语句进行预处理。
通过上述实施例,可以较为精准地过滤掉文本语句中无意义词素,得到相对精简的预处理后的文本语句,进而可以利用上述相对精简的预处理后的文本语句代替预处理前的文本语句来参与后续的数据处理,从而可以有效减少后续数据处理所涉及到的数据处理量,缩短后续的处理耗时,提高整体的处理效率。
在一些实施例中,上述预设的依存句法分析器(或者,HanLP)具体可以是预先利用大量标注了词性、语法关系的语料样本进行学习训练所得到的。
在一些实施例中,上述词性具体可以包括:名词、副词、助词、形容词等等。上述语法关系具体可以理解为同一个文本语句中不同词素之间所形成的关系。具体的,可以包括:动宾关系、主谓关系、并列关系等等。
在一些实施例中,上述无意义词素具体可以理解为文本语句中基于事件维度对于内容语义的理解影响较小的词素。
在一些实施例,上述从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句,具体实施时,可以包括以下内容:
S1:调用预设的语义识别模型分别处理多个文本语句,并通过预设的语义识别模型导出在处理多个文本语句的过程中所生成的多个文本语句的语义特征向量;
S2:调用预设的语义识别模型处理目标事件语句,并通过预设的语义识别模型导出在处理目标事件语句的过程中所生成的目标事件语句的语义特征向量;
S3:计算文本语句的语义特征向量与目标事件语句的语义特征向量之间的向量距离;
S4:根据所述向量距离,从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句。
通过上述实施例,可以高效、准确地从第一语料文本所包含的多个文本语句中筛选出基于事件维度,在反映目标事件的相关情况时,相对最具代表性的关键文本语句。
在一些实施例中,通常在使用预设的语义识别模型处理文本语句时,预设的语义识别模型往往会先通过卷积网络层对文本语句进行相应的特征处理,以提取出语义特征向量;再将语义特征向量输入至分类层,以输出相应的语义识别结果。而在本实施例中,可以预先在预设的语义识别模型的卷积网络层设置数据导出接口,以通过该导出接口获取文本语句的语义特征向量。从而可以得到多个文语句的语义特征向量。
进一步,可以计算多个文语句中的各个文本语句的语义特征向量与目标事件语句的特征向量之间的向量距离;再通过比较向量距离,找出与目标事件语句的特征向量的向量距离最小的文本语句,作为基于事件维度的贡献度符合要求的关键文本语句。
在一些实施例中,具体实施时,还可以利用改进的排序算法,先计算出文本语句与目标事件语句之间的相似度参数;再基于相似度参数对文本语句进行排序;将排序最靠前的文本语句确定基于事件维度的贡献度符合要求的关键文本语句。其中,关于如何计算相似度参数后续将另作说明。
在一些实施例中,上述确定出关键文本语句的句子向量,具体实施时,可以包括以下内容:利用预设的word2vec模型处理所述关键文本语句中的多个词素,得到对应的多个词向量;根据基于WordAvg的组合规则,组合所述多个词向量,得到关键文本语句的句子向量。
通过上述实施例,可以较为高效、准确地得到能够较好地表征出关键文本语句的语义内容的句子向量。
在一些实施例中,上述预设的word2vec模型具体可以是预先利用大量标注后的语料样本进行模型训练,所得到的用于识别确定词素的词向量的神经网络模型。
在一些实施例中,上述根据基于WordAvg的组合规则,组合所述多个词向量,得到关键文本语句的句子向量,具体实施时,可以包括:对所述多个词向量先进行累加,再作平均处理,以得到关键文本语句的句子向量。
在一些实施例中,类似的,可以采用上述确定关键文本语句的句子向量的方式,来确定出目标事件语句的句子向量。
在一些实施例中,上述根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数,具体实施时,可以包括以下内容:
S1:根据预设的计算规则,去除关键文本语句的句子向量中的第一类词素的词向量和第二类词素的词向量,得到处理后的句子向量;其中,所述第一类词素为表征人物的词素;所述第二类词素为表征地点的词素;
S2:根据处理后的句子向量和目标事件语句的句子向量,通过进行多维余弦计算,得到对应的余弦值,作为所述关键文本语句和目标事件语句基于事件维度的相似度参数。
通过上述实施例,可以先滤除关键文本语句中表征人物的词素的词向量和表征地点的词素的词向量所引入的干扰,从而得到基于事件维度的效果较好、准确度较高的相似度参数。
在一些实施例中,上述第一类词素具体可以理解为表征人物的词素。上述第二类词素具体可以理解为表征地点的词素。
在一些实施例中,上述相似度参数具体可以理解为基于事件维度,衡量两个文本语句所表征的语义内容的近似程度的参数数据。通常,如果两个文本语句的句子向量之间的相似度参数越大,则表明两个文本语句所表征的语义内容差异越小,关联性越强。相反,如果两个文本语句的句子向量之间的相似度参数越小,则表明两个文本语句所表征的语义内容差异越大,关联性越弱。
在一些实施例中,根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本,具体实施时,可以包括:将相似度参数与预设的相似度参数阈值进行数值比较,得到对应的比较结果。根据比较结果,如果确定相似度参数大于或等于预设的相似度参数阈值,则确定关键文本语句与目标事件语句的关联性较强,进而可以确定该关键文本语句所对应的第一语料文本属于基于事件维度与目标事件语句关联的目标文本。相反,根据比较结果,如果确定相似度参数小于预设的相似度参数阈值,则确定关键文本语句与目标事件语句的关联性较弱,进而可以确定该关键文本语句所对应的第一语料文本不属于基于事件维度与目标事件语句关联的目标文本。
在一些实施例中,在确定出第一语料文本属于上述目标文本的情况下,可以基于上述目标文本进一步提取得到相对较为简要、较为核心的,与目标事件语句关联密切的目标信息。
在一些实施例中,上述根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息,具体实施时,可以包括以下内容:
S1:确定出第一语料文本中的第一类词素和第二类词素;
S2:统计第一语料文本中各个第一类词素的出现频率、各个第二类词素的出现频率;
S3:筛选出出现频率最大的第一类词素作为第一关键词素;筛选出出现频率最大的第二类词素作为第二关键词素;
S4:根据预设的拼接规则,将所述关键文本语句、所述第一关键词素、所述第二关键词素进行拼接处理,以得到所述目标信息。
通过上述实施例,可以基于属于目标文本的第一语料文本,进一步提取得到用户所关注的较为简要,同时也较为核心的,与目标事件语句关联度较高的目标信息。
在一些实施例中,具体实施时,根据预设的拼接规则(例如,人物+地点+事件的拼接规则),可以依次将第一关键词素、第二关键词素,和滤除了第一词素和第二词素的关键文本语句进行拼接,以得到符合要求的目标信息。
在一些实施例中,所述方法具体实施时,还可以包括以下内容:
S1:确定第一语料文本所包含的多个文本语句的句子向量;
S2:根据所述多个文本语句的句子向量,生成第一语料文本的文本向量;
S3:根据所述第一语料文本的文本向量,确定所述第一语料文本是否存在抄袭风险。
通过上述实施例,在具体处理第一语料文本之前,还可以通过计算并根据第一语料文本的文本向量,检测所采集到的待处理的第一语料文本是否存在抄袭风险。
在一些实施例中,上述根据所述第一语料文本的文本向量,确定所述第一语料文本是否存在抄袭风险,具体实施时,可以包括以下内容:
S1:确定预设的数据库中所保存的多个历史语料文本的文本向量;
S2:根据所述第一语料文本的文本向量和所述多个历史语料文本的文本向量,计算各个历史语料文本与第一语料文本的相似度参数;
S3:检测预设的数据库中是否存在至少一个历史语料文本与第一语料文本的相似度参数大于预设的相似度参数阈值;
S4:在确定预设的数据库中至少存在一个历史语料文本与第一语料文本的相似度参数大于预设的相似度参数阈值的情况下,确定所述第一语料文本存在抄袭风险。
通过上述实施例,可以较为高效、准确地将第一语料文本语句与预设的数据库中所保存的历史语料文本进行比较,以确定第一语料文本是否存在抄袭风险。
在一些实施例中,为了提高检测抄袭风险的效率,具体实施时,也可以只计算第一语料文本中的一个段落(例如,中间一段,或者字符最多的一段)的段落文本向量。再将上述第一语料文本的段落文本向量,与历史语料文本中相应的段落文本向量进行比较,从而可以更加快速地确定是第一语料文本是否存在抄袭风险。
在一些实施例中,在确定第一语料文本存在抄袭风险的情况下,则停止对该第一语料文本进行后续的目标信息提取处理,并对该第一语料文本进行风险标记。在确定第一语料文本不存在抄袭风险的情况下,才开始对该第一语料文本进行后续的目标信息提取处理。
在一些实施例中,上述获取与目标人物相关的目标事件语句,具体实施时,可以包括以下内容:从目标数据源中采集包含有目标人物的初始语料文本;根据所述初始语料文本,确定出与目标人物相关的目标事件语句。
通过上述实施例,可以较为高效地获取涉及用户所关注的目标人物的目标事件语句,满足用户具体的处理需求。
在一些实施例中,上述目标人物具体可以是由用户选中并指定的人物。
通过上述方式,可以预先利用目标人物来确定出目标事件语句,进而基于上述涉及目标人物的目标事件语句,对大量第一语料文本进行目标信息提取处理,然后生成对应的目标事件图谱,可以实现对目标人物的定位和追踪。
由上可见,本说明书实施例提供的目标信息的获取方法,基于该方法,可以先确定出与目标人物相关的目标事件语句,以及目标事件语句的句子向量:同时获取第一语料文本,并将第一语料文本拆分成多个文本语句;再从多个文本语句中筛选出相对贡献度较高的关键文本语句,并确定出关键文本语句的句子向量;根据预设的计算规则,利用关键文本语句的句子向量与目标事件语句的句子向量,计算得到基于事件维度的相似度参数;再根据上述相似度参数,判断第一语料文本是否属于与目标事件语句关联的目标文本;在确定第一语料文本属于目标文本的情况下,根据关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。从而可以从大量第一语料文本中高效、准确地找出与用户所关注的涉及目标人物的目标事件关联较紧密的目标文本;再从该目标文本中进一步提取得到较为精准的基于事件维度较为核心的目标信息。
本书明书还提供了一种目标文本的确定方法,该方法具体实施时,可以包括以下内容:
S1:获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
S2:获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
S3:从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;
S4:根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;
S5:根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本。
通过上述实施,可以从海量的第一语料文本中快速、准确地筛选出基于事件维度,与目标事件语句紧密关联的目标文本。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
为了能够更加准确地完成上述指令,参阅图3所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口301、处理器302以及存储器303,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口301,具体可以用于获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素。
所述处理器302,具体可以用于从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
所述存储器303,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口301可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行FTP数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如GSM、CDMA等;其还可以为Wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器302可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器303可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如RAM、FIFO等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、TF卡等。
本说明书实施例还提供了一种基于上述目标信息的获取方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
在本实施例中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图4所示,在软件层面上,本说明书实施例还提供了一种目标信息的获取装置,该装置具体可以包括以下的结构模块:
第一获取模块401,具体可以用于获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
第二获取模块402,具体可以用于获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
筛选模块403,具体可以用于从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;
计算模块404,具体可以用于根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;
确定模块405,具体可以用于根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;
提取模块406,具体可以用于在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
由上可见,基于本说明书实施例提供的目标信息的获取装置,可以从大量第一语料文本中高效、准确地找出与用户所关注的涉及目标人物的目标事件关联较紧密的目标文本;再从该目标文本中进一步提取得到较为精准的基于事件维度较为核心的目标信息。
在一个具体的场景示例中,可以应用本说明所提供的目标信息的获取方法来进行基于自然语言文本抽取(例如,提取目标信息)和构建可视化图谱(例如,构建目标事件图谱)。具体实施过程可以参阅以下内容。
在本场景示例中,可以先通过依存句法分析(HanLP)对导入的非结构化信息(例如,第一语料文本,某篇文章)进行词素提取,提取后再对停用词、连词、虚词等(例如,无意义词素)进行处理;再通过句子权重,句子位置等,根据投票思想计算出相邻句子对本句子的权重贡献程度,并合计贡献值作为当前句子的权重值;然后再根据句子的权重进行排序,并抽取排序最靠前语句(例如,关键文本语句);再根据知识库(例如,预设的数据库)中标注的特定人物的关系等要素,最终计算出排序靠前语句的相似度(例如,相似度参数);再通过语句相似度求和,计算出文章相似度。再对于文章相似度超过一定阀值的文章认为是存在抄袭的嫌疑(例如,确定存在抄袭风险),将该文章进行剔除,并对这该文章进行标注以提示。同时,在本场景示例中,还可以根据主题关键语句的相似度,结合在其他文本库中的分布情况,构建可视化图谱。
具体的,构建可视化图谱时,可以参阅图5所示,按照以下步骤进行。
1、非结构化信息的数据导入。
2、结合依存句法分析并抽取出语义主干和相关语义成分。
具体的,例如,可以参阅图6所示,对输入的语句“南极地区较常出现臭氧层空洞,北极地区则较罕见”,使用HanLP的工具(例如,预设的依存句法分析器),对语句进行词性分析,可以分析出词素的词性,以及词素之间存在的诸如主谓关系、动宾、并列、定中、状中等各种语法关系,进而可以抽取出语句中的主要词素,对数据进行清洗。此外,还可以分析出语句中标点符号。
3、对输入的文本进行分析结果降噪和停用词(比如连词,叹词等)处理。
具体的,可以通过对2分析出的词性里面的副词、标点符号等意义不大的字符进行移除过滤,可以形成待统计分析使用的词素组合(例如,预处理后的文本语句)。比如“南极”“地区”“出现”“臭氧层”“空洞”“地区”“罕见”。
对于经过上述处理过的词素,可以通过改进后的排序算法进行权重计算,分析出词句对语句的贡献度,计算出句子在文章中的权重。
由于要提取关键人物的网站资讯信息,而这类新闻的报道方式结构较为规范,故改进后的排序算法可以更好的提高信息提取的准确性。
5、预先使用网上现有已发布的历史网讯文章内容,加上百度百科、维基百科、银行领域数据等语料样本,采用Gensim工具包的word2vec模型,进行训练,得到能够识别词素的词向量的word2vec模型。可以参阅图7所示。
通过word2vec模型可以识别出语句中的词向量比如:发展:1;中国:2;议会:3等。
再使用识别出的词向量,采用WordAvg方式,根据句子中词素的词向量,进行累加平均,作为句子的向量。
6、再根据句子的向量计算句子之间的余弦相似度,构建句子的相似度矩阵,以得到文章之间的相似度。其中,余弦夹角越小,则认为越相似。以句子向量x与句子向量y之间的多维余弦计算为例。
具体的,由于向量x(例如,目标事件语句的句子向量)是不包括人物和地点的向量句子,故在计算与句子向量y(例如,关键文本语句的句子向量)之间的相似度时,可以去掉y中人物(例如,第一类词素)和地点(例如,第二类词素)的向量。其中,a代表人物向量,b代表地点向量,故优化后的相似度算法如下所示:
其中,xi表示参照文章(例如,包含有目标事件语句的文章)中编号为i的语句的句子向量,yi表示待测文章中编号为i的语句的句子向量,cos(θ)表示两篇文章之间的相似度。
如果向量句中不包括时间和地点向量,则a=0、b=0。
进而可以选取相似度最高的句子所在文章的a和b出现最多的人物(例如,第一关键词素)和地点(例如,第二关键词素)作为该句的人物和地点(以拼接得到目标信息)。
此外,通过上述方式加权求和句子的相似度,再计算并根据文章段落的相似度,当文章段落的相似度与样本数据的相似度超过一定阀值,则认为该文章存在抄袭或重复,则将该类文章予以剔除。
接着,抽取剔除后的非机构化信息中相似度较高的关键信息(例如,关键文本语句),并匹配上标注好的人物和地点,得到(目标信息),比如:“杨XX董事长、四川、传达年终会议精神”、“刘XX行长、吉林、口述年终会议精神”。
再根据上述要素数据构建可视化图谱。
通过上述场景示例,基于本说明书所提供的方法,可以为决策者和管理者提供的一款可以纵观全局、合理掌控事件发展情况的信息获取工具,并通过不同维度的可视化图谱展现可以为管理者最终决策提供参考。通过根据以人物为主体的新闻特有的专业报道模式优化排序算法,提升关键信息提取的准确性。通过使用依存句法分析识别出正负面舆情信息,迅速定位事件发展态势,及时调整方针部署策略,方便合理应对和控制风险。从而可以方便决策者和管理者在海量的信息中识别出重点工作的落实和部署情况,有利于定位和追踪。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (12)
1.一种目标信息的获取方法,其特征在于,包括:
获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;包括:调用预设的语义识别模型分别处理多个文本语句,并通过预设的语义识别模型导出在处理多个文本语句的过程中所生成的多个文本语句的语义特征向量;调用预设的语义识别模型处理目标事件语句,并通过预设的语义识别模型导出在处理目标事件语句的过程中所生成的目标事件语句的语义特征向量;计算文本语句的语义特征向量与目标事件语句的语义特征向量之间的向量距离;根据所述向量距离,从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;
根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;包括:根据预设的计算规则,去除关键文本语句的句子向量中的第一类词素的词向量和第二类词素的词向量,得到处理后的句子向量;其中,所述第一类词素为表征人物的词素;所述第二类词素为表征地点的词素;根据处理后的句子向量和目标事件语句的句子向量,通过进行多维余弦计算,得到对应的余弦值,作为所述关键文本语句和目标事件语句基于事件维度的相似度参数;
根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;
在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从所述第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息;包括:确定出第一语料文本中的第一类词素和第二类词素;统计第一语料文本中各个第一类词素的出现频率、各个第二类词素的出现频率;筛选出出现频率最大的第一类词素作为第一关键词素;筛选出出现频率最大的第二类词素作为第二关键词素;根据预设的拼接规则,将所述关键文本语句、所述第一关键词素、所述第二关键词素进行拼接处理,以得到所述目标信息。
2.根据权利要求1所述的方法,其特征在于,所述第一语料文本包括多个语料文本;相应的,所述目标信息包括多个目标信息。
3.根据权利要求2所述的方法,其特征在于,在生成基于事件维度的与目标事件语句关联的目标信息之后,所述方法还包括:
组合所述目标事件语句,以及多个目标信息,以生成用于表征目标事件的事件进展情况的目标事件图谱。
4.根据权利要求1所述的方法,其特征在于,在将所述第一语料文本中拆分为多个文本语句之后,所述方法还包括:
调用预设的依存句法分析器分别处理各个文本语句所包含的多个词素,以确定出文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系;
根据文本语句中词素的词性,以及同一个文本语句中不同词素之间的语法关系,确定出文本语句中的无意义词素;
通过过滤文本语句中的无意义词素,对文本语句进行预处理。
5.根据权利要求1所述的方法,其特征在于,确定出关键文本语句的句子向量,包括:
利用预设的word2vec模型处理所述关键文本语句中的多个词素,得到对应的多个词向量;
根据基于WordAvg的组合规则,组合所述多个词向量,得到关键文本语句的句子向量。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
确定第一语料文本所包含的多个文本语句的句子向量;
根据所述多个文本语句的句子向量,生成第一语料文本的文本向量;
根据所述第一语料文本的文本向量,确定所述第一语料文本是否存在抄袭风险。
7.根据权利要求6所述的方法,其特征在于,根据所述第一语料文本的文本向量,确定所述第一语料文本是否存在抄袭风险,包括:
确定预设的数据库中所保存的多个历史语料文本的文本向量;
根据所述第一语料文本的文本向量和所述多个历史语料文本的文本向量,计算各个历史语料文本与第一语料文本的相似度参数;
检测预设的数据库中是否存在至少一个历史语料文本与第一语料文本的相似度参数大于预设的相似度参数阈值;
在确定预设的数据库中至少存在一个历史语料文本与第一语料文本的相似度参数大于预设的相似度参数阈值的情况下,确定所述第一语料文本存在抄袭风险。
8.根据权利要求1所述的方法,其特征在于,获取与目标人物相关的目标事件语句,包括:
从目标数据源中采集包含有目标人物的初始语料文本;
根据所述初始语料文本,确定出与目标人物相关的目标事件语句。
9.根据权利要求8所述的方法,其特征在于,所述第一语料文本包括:从除目标数据源以外的其他数据源采集得到的文章、新闻、通告。
10.一种目标信息的获取装置,其特征在于,包括:
第一获取模块,用于获取与目标人物相关的目标事件语句,以及目标事件语句的句子向量;
第二获取模块,用于获取待处理的第一语料文本;并将所述第一语料文本拆分为多个文本语句;其中,所述文本语句包含有多个词素;
筛选模块,用于从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;并确定出关键文本语句的句子向量;所述筛选模块具体用于调用预设的语义识别模型分别处理多个文本语句,并通过预设的语义识别模型导出在处理多个文本语句的过程中所生成的多个文本语句的语义特征向量;调用预设的语义识别模型处理目标事件语句,并通过预设的语义识别模型导出在处理目标事件语句的过程中所生成的目标事件语句的语义特征向量;计算文本语句的语义特征向量与目标事件语句的语义特征向量之间的向量距离;根据所述向量距离,从多个文本语句中筛选出基于事件维度的贡献度符合要求的文本语句作为关键文本语句;
计算模块,用于根据预设的计算规则,计算所述关键文本语句的句子向量与目标事件语句的句子向量之间基于事件维度的相似度参数;所述计算模块具体用于:根据预设的计算规则,去除关键文本语句的句子向量中的第一类词素的词向量和第二类词素的词向量,得到处理后的句子向量;其中,所述第一类词素为表征人物的词素;所述第二类词素为表征地点的词素;根据处理后的句子向量和目标事件语句的句子向量,通过进行多维余弦计算,得到对应的余弦值,作为所述关键文本语句和目标事件语句基于事件维度的相似度参数;
确定模块,用于根据所述相似度参数,确定所述第一语料文本是否属于基于事件维度与目标事件语句关联的目标文本;
提取模块,用于在确定所述第一语料文本属于目标文本的情况下,根据所述关键文本语句,从第一语料文本中提取出基于事件维度的与目标事件语句关联的目标信息;所述提取模块具体用于确定出第一语料文本中的第一类词素和第二类词素;统计第一语料文本中各个第一类词素的出现频率、各个第二类词素的出现频率;筛选出出现频率最大的第一类词素作为第一关键词素;筛选出出现频率最大的第二类词素作为第二关键词素;根据预设的拼接规则,将所述关键文本语句、所述第一关键词素、所述第二关键词素进行拼接处理,以得到所述目标信息。
11.一种服务器,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,所述指令被执行时实现权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110493701.3A CN113076735B (zh) | 2021-05-07 | 2021-05-07 | 目标信息的获取方法、装置和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110493701.3A CN113076735B (zh) | 2021-05-07 | 2021-05-07 | 目标信息的获取方法、装置和服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113076735A CN113076735A (zh) | 2021-07-06 |
CN113076735B true CN113076735B (zh) | 2024-08-06 |
Family
ID=76616328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110493701.3A Active CN113076735B (zh) | 2021-05-07 | 2021-05-07 | 目标信息的获取方法、装置和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113076735B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806486B (zh) * | 2021-09-23 | 2024-05-10 | 深圳市北科瑞声科技股份有限公司 | 长文本相似度的计算方法及装置、存储介质、电子装置 |
CN115203758B (zh) * | 2022-07-21 | 2023-11-07 | 北京国联视讯信息技术股份有限公司 | 一种数据安全存储方法、系统及云平台 |
CN116468214B (zh) * | 2023-03-07 | 2023-12-15 | 德联易控科技(北京)有限公司 | 一种基于故障事件处理过程的证据电子化方法及电子设备 |
CN117034031B (zh) * | 2023-08-08 | 2024-11-08 | 武汉交通职业学院 | 基于沟通场景的语句生成方法及装置 |
CN117851601B (zh) * | 2024-02-26 | 2024-07-16 | 海纳云物联科技有限公司 | 事件分类模型的训练方法、使用方法、装置及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885717A (zh) * | 2016-09-30 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法及装置 |
CN109508453A (zh) * | 2018-09-28 | 2019-03-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨媒体情报目标要素关联分析系统及其关联分析方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111382276B (zh) * | 2018-12-29 | 2023-06-20 | 中国科学院信息工程研究所 | 一种事件发展脉络图生成方法 |
CN110781276B (zh) * | 2019-09-18 | 2023-09-19 | 平安科技(深圳)有限公司 | 文本抽取方法、装置、设备及存储介质 |
CN111125348A (zh) * | 2019-11-25 | 2020-05-08 | 北京明略软件系统有限公司 | 一种文本摘要的提取方法及装置 |
CN111401045B (zh) * | 2020-03-16 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种文本生成方法、装置、存储介质和电子设备 |
CN111581358B (zh) * | 2020-04-08 | 2023-08-18 | 北京百度网讯科技有限公司 | 信息抽取方法、装置及电子设备 |
CN111581345A (zh) * | 2020-04-26 | 2020-08-25 | 上海明略人工智能(集团)有限公司 | 一种文档级别的事件抽取方法和装置 |
-
2021
- 2021-05-07 CN CN202110493701.3A patent/CN113076735B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107885717A (zh) * | 2016-09-30 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法及装置 |
CN109508453A (zh) * | 2018-09-28 | 2019-03-22 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 跨媒体情报目标要素关联分析系统及其关联分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113076735A (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113076735B (zh) | 目标信息的获取方法、装置和服务器 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
EP3819785A1 (en) | Feature word determining method, apparatus, and server | |
CN108875059B (zh) | 用于生成文档标签的方法、装置、电子设备和存储介质 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN110413787A (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
WO2017198031A1 (zh) | 解析语义的方法和装置 | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN110287405B (zh) | 情感分析的方法、装置和存储介质 | |
CN110321561B (zh) | 一种关键词提取方法和装置 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN103218368B (zh) | 一种挖掘热词的方法与装置 | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN110688540B (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
CN104881446A (zh) | 搜索方法及装置 | |
CN113934910A (zh) | 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
CN110688559A (zh) | 一种检索方法及装置 | |
CN111581950B (zh) | 同义名称词的确定方法和同义名称词的知识库的建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |