CN116992874B - 一种文本引用审核溯源方法、系统、装置和存储介质 - Google Patents
一种文本引用审核溯源方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN116992874B CN116992874B CN202311256067.7A CN202311256067A CN116992874B CN 116992874 B CN116992874 B CN 116992874B CN 202311256067 A CN202311256067 A CN 202311256067A CN 116992874 B CN116992874 B CN 116992874B
- Authority
- CN
- China
- Prior art keywords
- text
- word segmentation
- clause
- feature
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 174
- 230000011218 segmentation Effects 0.000 claims abstract description 110
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012550 audit Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 36
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 3
- 230000008676 import Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 8
- 208000025174 PANDAS Diseases 0.000 description 6
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 6
- 240000004718 Panda Species 0.000 description 6
- 235000016496 Panda oleosa Nutrition 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000013474 audit trail Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 1
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本引用审核溯源方法、系统、装置和存储介质,具体包括:获取并预处理源文本数据,得正文文本信息;对正文文本信息分句,得到正文文本信息的第一分句列表;滑动窗口处理第一分句列表,得第二分句及其列表;对第二分句分词得第一分词;获取并通过哈希函数和上下文相关性模型处理第一分词的分词特征,得第一分词的特征向量;根据所有第一分词的特征向量堆叠成的特征向量矩阵,得上下文相关性特征向量;对比待审核文本和上下文相关性特征向量的相似度,得审核溯源结果。本发明实施例将待审核文本转换为上下文相关性特征向量,利用ElasticSearch查询机制,对待审核文本审核溯源,降低了人工审核的风险和成本。
Description
技术领域
本发明属于文本审核领域,尤其是一种文本引用审核溯源方法、系统、装置和存储介质。
背景技术
随着信息技术的兴起,各企业、机构都有自己的资讯发布平台以及公关平台,例如微信公众号。一个正规的公众号媒体平台或咨询发布平台,其本身即是作为一个相关行业领域或品牌的信息资料库而存在,维护人员会把行业领域内的专业知识文献、产品知识,信息介绍等方面进行整理和发布,方便客户进行查询、了解和学习等用途。平台内容输出一定是准确、专业、严谨的,往往需要引用相关行业内的专业知识文献。由于引用到的文献可能多且分散,内容编辑人员通过搜索引擎获得的信息在经过网络层面的多次传播以后已经丢失了相当的原信息,造成从网络上复制的内容本身有误,或者人工输入时的疏忽造成的常规错误,因此在内容发布之前往往需要对引用文本进行严格的审核,防止出现错误的表述,且希望能够追根溯源。
目前的审核手段分为人工审核和机器审核,人工审核需要耗费大量的时间精力,且正确率得不到保证;而当前主流机器审核方法是利用词嵌入向量模型进行审核,即将待审核文本转化为向量表示,再将向量与被引用文献的向量对比,判断出处和内容是否正确,例如Word2vec,glove,Bert,Transformer等。这些模型都在训练或微调过程中使用到了一定规模的预训练中文词向量。对于模型Word2vec和glove来说,模型输出的句向量是由所有词向量求平均而来,忽略了语句上下文之间的关系;而Bert、Transformer虽然考虑到了语句的上下文信息,但经过测试发现,语句之间的相似度仍然很大程度上受到相同字符数目多少的影响。由于文本审核溯源的本质是将待审核文本和训练后的语料匹配,上述模型的缺陷会导致在文本审核溯源工作中,匹配到的句子不是需要引用的原始句子,可能是语义相近但不完全相同的句子,从而导致审核事故,原因在于这样的句子很可能导致文本被引用时出现歧义,或者出现多余的词句导致句意混乱,亦或是无法发现引用的出处可能出现的错误。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供了一种文本引用审核溯源方法、系统、装置和存储介质,能够对待审核文本实现原句或标准语句的匹配和源信息的反馈,以此实现对待审核文本的审核和溯源。
一方面,本发明提供了一种文本引用审核溯源方法,包括:
获取包括若干篇文献的源文本数据,并对所述源文本数据进行预处理,得到每篇所述文献的正文文本信息;
分别对每篇所述文献的正文文本信息进行分句,得到每篇所述文献的正文文本信息所对应的第一分句列表;所述第一分句列表包括若干个第一分句;
应用滑动窗口算法处理所述第一分句列表,获得第二分句列表,并将所述第二分句列表导入ElasticSearch索引库;所述第二分句列表包括若干个第二分句,所述第二分句由至少一个所述第一分句构成;
对每个所述第二分句进行分词,获得若干个第一分词;
获取每个所述第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个所述分词特征,得到每个所述第一分词的特征向量,进而通过堆叠得到第二分句所有第一分词的特征向量矩阵;
根据所述第二分句所有所述第一分词的特征向量矩阵,获得对应每个所述第二分句的上下文相关性特征向量,并将所述上下文相关性特征向量导入所述ElasticSearch索引库;
将待审核文本输入至所述ElasticSearch索引库,在所述ElasticSearch索引库中对所述待审核文本和所述上下文相关性特征向量进行相似度对比,并根据比较结果,获得所述待审核文本的审核溯源结果。
根据本发明的一些实施例,所述获取包括若干篇文献的源文本数据,并对所述源文本数据进行预处理,得到每篇所述文献的正文文本信息,包括:
在目标网站爬取所述源文本数据;所述源文本数据包括若干篇文献;
对所述源文本数据进行数据清洗,以除去无关的页面元素、乱码和图片,从而获得每篇所述文献的所述正文文本信息。
根据本发明的一些实施例,所述应用滑动窗口算法处理所述第一分句列表,获得第二分句列表,并将所述第二分句列表导入所述ElasticSearch索引库,包括:
通过多个具有不同窗口长度的滑动窗口,以预设滑动步长在所述第一分句列表内从头至尾进行滑动;
在每次滑动过程中,将位于所述滑动窗口内的若干个第一分句拼接成所述第二分句;
根据获得的所有所述第二分句,获得所述第二分句列表,并将所述第二分句列表导入ElasticSearch索引库。
根据本发明的一些实施例,所述获取每个所述第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个所述分词特征,得到每个所述第一分词的特征向量;根据所述第二分句的每个第一分词的所述特征向量,获得对应每个所述第二分句的上下文相关性特征向量,包括:
获取每个所述第一分词的多个分词特征,对每个所述分词特征,通过不同的哈希函数进行哈希映射,得到每个所述分词特征对应的行向量;
根据每个所述第一分词的所有分词特征的行向量,传入所述上下文相关性模型的Maxout层,得到所述第一分词的特征向量;
将每个所述第二分句的所有第一分词的特征向量进行堆叠,得到所述第二分句的特征向量矩阵;
将所述特征向量矩阵传入所述上下文相关性模型编码模块的残差卷积神经网络。
根据本发明的一些实施例,所述对每个所述分词特征,通过不同的哈希函数进行哈希映射,得到每个所述分词特征对应的行向量,包括:
通过矩阵处理工具生成特征嵌入表;所述特征嵌入表包括多个随机生成的行向量,每个所述行向量具有对应的行编号;
对每个所述分词特征,通过不同的哈希函数进行哈希映射,使每个所述分词特征分别获得行编号;
根据所述分词特征的行编号,获取所述分词特征在所述特征嵌入表内对应的行向量。
根据本发明的一些实施例,所述残差卷积神经网络包括四层,每一层使用卷积提取特征,卷积核大小为1;使用Maxout作为激活函数并对所述Maxout的输出结果做归一化处理;所述残差卷积神经网络还使用了残差连接以增强网络的表达能力。
根据本发明的一些实施例,所述将待审核文本输入至所述ElasticSearch索引库,在所述ElasticSearch索引库中对所述待审核文本和所述上下文相关性特征向量进行相似度对比,并根据比较结果,获得所述待审核文本的审核溯源结果,包括:
将所述待审核文本输入至所述ElasticSearch索引库中;
通过ElasticSearch的match查询方式,对每个所述第二分句和所述待审核文本的字词相关性打分,使每个所述第二分句获得与所述待审核文本的字词相关性分数;
选取所述字词相关性分数最高的指定数量的所述第二分句,计算选取的每个所述第二分句的所述上下文相关性特征向量与所述待审核文本的余弦相似度;
根据所述余弦相似度与预设的相似度阈值的比较结果,获得与所述待审核文本相对应的审核溯源结果。
另一方面,本发明还提供了一种文本引用审核溯源系统,包括:
源文本数据处理模块,用于获取包括若干篇文献的源文本数据,预处理所述源文本数据,以得到每篇所述文献的正文文本信息;
文本分句模块,用于分别对每篇所述文献的正文文本信息进行分句,得到每篇所述文献的正文文本信息所对应的第一分句列表,所述第一分句列表包括若干个第一分句;
滑动窗口模块,用于应用滑动窗口算法处理所述第一分句列表,获得第二分句列表,并将所述第二分句列表导入ElasticSearch索引库;所述第二分句列表包括若干个第二分句,所述第二分句由至少一个所述第一分句构成;
文本分词模块,用于对每个所述第二分句进行分词,获得若干个第一分词;
特征获取模块,用于获取每个所述第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个所述分词特征,得到每个所述第一分词的特征向量,并通过堆叠得到所述第二分句所有所述第一分词的特征向量矩阵;
上下文相关性向量获取模块,根据所述第二分句所有所述第一分词的特征向量矩阵,获得对应每个所述第二分句的上下文相关性特征向量,并将所述上下文相关性特征向量导入所述ElasticSearch索引库;
检索匹配模块,用于将待审核文本输入至所述ElasticSearch索引库,在所述ElasticSearch索引库中对所述待审核文本和所述上下文相关性特征向量进行相似度对比,并根据比较结果,获得所述待审核文本的审核溯源结果。
另一方面,本发明还提供了一种计算机装置,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行上述方面实施例所述的文本引用审核溯源方法。
另一方面,本发明还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上述方面实施例所述的文本引用审核溯源方法。
根据本发明的一种文本引用审核溯源方法、系统、装置和存储介质,至少具有如下有益效果:获取并预处理包括若干篇文献的源文本数据,得到每篇文献的正文文本信息;分别对每篇文献的正文文本信息进行分句,得到每篇文献的正文文本信息所对应的第一分句列表;应用滑动窗口算法处理第一分句列表,获得第二分句列表;第二分句列表包括若干个第二分句,第二分句由至少一个第一分句构成;对每个第二分句进行分词,获得若干个第一分词;获取每个第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个分词特征,得到每个第一分词的特征向量,并通过堆叠得到第二分句所有第一分词的特征向量矩阵;根据第二分句的每个第一分词的特征向量,获得对应每个第二分句的上下文相关性特征向量;通过ElasticSearch的查询方式,对待审核文本和上下文相关性特征向量进行相似度对比,并根据比较结果,获得与待审核文本相对应的审核溯源结果。本发明实施例通过将待审核文本转换为包含上下文相关性信息的向量,并利用ElasticSearch的匹配查询机制,对待审核文本进行审核和溯源,降低人工审核的风险和成本,提升审核效率。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的文本引用审核溯源系统工作流程示意图;
图2为本发明实施例特征嵌入表示意图;
图3为本发明实施例残差卷积神经网络示意图;
图4为本发明实施例ElasticSearch索引记录示意图;
图5为本发明实施例ElasticSearch查询流程示意图;
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个及两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二或第三只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
一个正规的公众号媒体平台或咨询发布平台,其内容的输出一定是准确、专业、严谨的,需要引用相关行业内的专业知识文献。因此在内容发布之前往往需要对引用文本进行严格的审核,防止出现错误的表述,并且要求引用文本与原文中的原句严格一致。由于引用到的文献可能多且分散,内容编辑人员通过搜索引擎获得的信息在经过网络层面的多次传播以后已经丢失了相当的原信息,造成从网络上复制的内容本身有误,或者人工输入时的疏忽造成的常规错误。对于内容审核人员来说,搜查错误并溯源寻找原句的成本无疑是巨大的。
为解决上述问题,目前市面上也出现了数种向量模型实现文本的匹配。例如,当前主流的中文词向量模型,例如Word2vec,glove等词向量相关模型或者基于Bert,Transformer衍变而来的语义向量表征模型,这些模型都在训练或微调过程中使用到了一定规模的预训练中文词向量。对于Word2vec和glove来说,句向量是由所有词向量求平均而来,忽略了语句上下文之间的关系,而Bert、Transformer虽然考虑到了语句的上下文信息,但经过测试发现,语句之间的相似度仍然很大程度上受到相同字符数目多少的影响。例如:一个正确、标准的句子“大熊猫在世界上是较为稀少的。”,通过基于Bert或Transformer的语义向量表征模型从句子库中匹配到的相似度最高的句子是“说到较为稀少,大熊猫在世界上是较为稀少的。”,尽管匹配到的该句相比于输入的句子仅仅多了个“说到较为稀少,”,但按照审核需求,理想情况下匹配到的应该是“大熊猫在世界上是较为稀少的。”这个正确、标准的句子本身。此外,基于预训练中文词向量训练或微调得到的语义向量模型,由于具有庞大的模型参数量和词表,会占用庞大的存储空间和GPU显存资源,增加服务器的内存成本,不利于在同一台服务器上进行该审核能力的大规模部署。本发明实施例解决审核需求的本质是一个文本匹配任务,与现有匹配方案相比,从目标导向来看该审核场景对于对文本匹配结果的准确度有极高的要求,要求实现引用文本跟原文中的原句之间一字不差的严格匹配。
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提供了一种文本引用审核溯源方法、系统、装置和存储介质,对文本中引用内容的错误语句实现原句或标准语句的匹配和源信息的反馈,以此实现审核和溯源。
名词解释:
Word2vec:用来产生词向量的相关模型;
Glove:使用了语料库的全局统计特征,也使用了局部的上下文特征的词向量相关模型;
Bert、Transformer:深度学习语言模型;
GPU:Graphics processing unit,图形处理器;
ElasticSearch:位于 Elastic Stack 核心的分布式搜索和分析引擎;
NER:Named Entity Recognition,命名实体识别;
Pkuseg、jieba:中文分词工具,可将句子以中文的语法习惯分词;
Numpy:Python的一种开源的数值计算扩展,可用于存储和处理大型矩阵;
Layer Normalization:归一化,目的是使得预处理的数据被限定在一定的范围内(比如[0,1]或者[-1,1]),从而消除奇异样本数据导致的不良影响;
Dropout:神经网络中神经元的随机失活,在函数前向传播的时候,让某个神经元的激活值以一定的概率p停止工作。
图1为本发明实施例的文本引用审核溯源系统工作流程,下面结合具体的实施例对本发明的各模块进行详细介绍:
参照图1~图5,根据本发明的一些实施例,本发明提供了一种文本引用审核溯源方法,包括:
步骤S100:获取包括若干篇文献的源文本数据,并对源文本数据进行预处理,得到每篇文献的正文文本信息;
具体地,本发明实施例中,若干篇文献的源文本数据包括单个或多个行业领域内的经典文献。例如在互联网和行业金融行业中这些文献囊括了各类经典的论文、资料等等。而通常这些源文本数据还包含很多无关信息,因此需要进行一定地预处理,以获取只包含文献正文文字内容的正文文本信息。
步骤S200:分别对每篇文献的正文文本信息进行分句,得到每篇文献的正文文本信息所对应的第一分句列表;第一分句列表包括若干个第一分句;
具体地,在获得每篇文献的正文文本信息后,为了将其转换为向量表示,需要按照一定的规则,将各文献的正文文本信息分成小句子,即第一分句。本发明实施例使用的是正则表达式,对每篇文献的正文文本信息按照常规的标点符号如“。!?”等,将每篇文献的正文文本信息分割为多个小句子(即第一分句),并将所有的第一分句存放在第一分句列表中。可以理解的是,本发明实施例中的分句方法不唯一,其它诸如使用分句函数等方法也能实现此处的分句功能。将文献分解为若干第一分句后,将第一分句按照文献正文的原本顺序,存入第一分句列表中保存。
步骤S300:应用滑动窗口算法处理第一分句列表,获得第二分句列表,并将第二分句列表导入ElasticSearch索引库;第二分句列表包括若干个第二分句,第二分句由至少一个第一分句构成;
具体地,为了将后续将正文文本信息转换为向量表示,还需要应用滑动窗口在源文本(或文献)的小句子列表上进行细粒度的聚合和导入,这样对于审核的文本,可以精准捕捉到每句话对应的原话和原文,因此本发明实施例对第一分句列表采用滑动窗口算法,随着窗口的滑动,将窗口内的句子拼接为一个新的句子(即第二分句)放到新的列表,即第二分句列表中。这样,第二分句列表中的所有第二分句由第一分句组成。
步骤S400:对每个第二分句进行分词,获得若干个第一分词;
具体地,本发明实施例提供的方法,获取上下文相关性特征向量的可以简单的概括为两个步骤,分别是嵌入(Embed)和编码(Encode)。嵌入步骤即上述的把文献语句中的所有字、词(即第一分词)用特征向量表示出来,作为编码步骤的输入。以一个句子为例,例如:“大熊猫在世界上是较为稀少的。”的所有字、词单元就是“大熊猫在 世界 上 是 较为稀少的”。本发明实施例采用中文分词工具pkuseg作为分词器,对第二分句进行分词,pkuseg为北京大学开源的分词工具,能够将句子按照中文的语法和词性分成单个词语或字,其它的分词工具诸如jieba,也可在本发明实施例中作为分词工具,本发明对具体的分词工具不做限制,可以满足将句子按照中文的语法和词性分成单个词语或字的需求即可。
步骤S500:获取每个第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个分词特征,得到每个第一分词的特征向量;
在对第二分句进行分词,得到若干个第一分词后,就进入了嵌入步骤。首先,需要获取第一分词的分词特征。如图2所示,以上述词语“较为稀少”为例,本发明实施例中,会抽取该词语的四个特征:词语的本身形态、前缀、后缀(往往是后3个字符)以及形状,具体到“较为稀少”这个词语,词语的本身形态代表“较为稀少”这个词语本身,前缀代表“较”这个字,后缀代表“为稀少”这三个字,形状代表“较为稀少”的汉字形状;上述的四个特征即为第一分词的分词特征。
在获取上述的分词特征后,还需要将上述分词特征转换成可以被机器处理的特征向量,本发明实施例在获取该特征向量时结合了哈希函数的映射和上下文相关性模型的嵌入步骤,获得第二分句的每个第一分词的特征向量,进而通过堆叠得到第二分句所有第一分词的特征向量矩阵。
步骤S600:根据第二分句的每个第一分词的特征向量,获得对应每个第二分句的上下文相关性特征向量,并将上下文相关性特征向量导入ElasticSearch索引库;
进一步地,根据第二分句所有第一分词的特征向量矩阵后,还需要通过上下文相关性模型的编码步骤处理第二分句的每个第一分词的特征向量,之后获得上下文相关性特征向量。本发明实施例中,由于上下文相关性模型的特性,对于本发明实施例的每个第一分词,会同时学习到其前后12个第一分词的上下文特征,总体来说,即捕捉到了这些第一分词的上下文前后顺序关系和耦合关系特征,也即上下文相关性信息。
步骤S700:将待审核文本输入至ElasticSearch索引库,通过ElasticSearch的查询方式,对待审核文本和上下文相关性特征向量进行相似度对比,并根据比较结果,获得待审核文本相对应的审核溯源结果。
进一步地,将第二分句列表和上下文相关性特征向量导入ElasticSearch索引库后,ElasticSearch索引库就可以对实际过程中引用的文献进行审核溯源了,具体是通过ElasticSearch的两种查询方式(match查询方式和term查询方式)以及上下文相关性特征向量的相似度对比,在ElasticSearch索引库中找出与被引用的文献句子向量相似度较高的第二分句,再通过第二分句,对应其源文本数据,之后审核人员可通过设置显示模块的方式,将审核溯源结果显示,方便查看修改。
本发明实施例的文本上下文相关性模型在构建和训练时舍弃了预训练中文词向量的参与(而其他的语义向量表征模型例如word2vec,bert等都有大规模预训练词向量的参与),而是结合哈希函数随机生成词向量,这样既使得模型更为轻量,也占用了更少的内存。更重要的是,由于哈希机制,模型输出的语句向量仅代表了语句所有特征之间的前后顺序关系和耦合关系,而不包含特征本身所代表的含义(语义),进而避免了语句之间相似度受相同字符特征过多而匹配错误的问题。
根据本发明的一些实施例,上述的步骤S100:获取包括若干篇文献的源文本数据,并对源文本数据进行预处理,得到每篇文献的正文文本信息,具体包括以下子步骤:
步骤S110:在目标网站爬取源文本数据;源文本数据包括若干篇文献;
步骤S120:对源文本数据进行数据清洗,以除去无关的页面元素、乱码和图片,从而获得每篇文献的正文文本信息。
具体地,本发明实施例在相关网站上对源文本数据进行爬取,也可在相关网站上的公开下载渠道获取源文本数据等,本发明不旨在对获取源文本数据的方法进行限定。进一步地,爬取下来的文本需要进行预处理,例如需要对源文本数据进行清洗,除去无关的HTML页面元素、乱码、图片信息等;清洗完成后,得到仅包含正文文字的正文文本信息,将所有的正文文本信息信息整理、存储到excel或csv表格中,以方便后续的文章数据整理、查询和导入操作。整理后的文章信息格式,部分如下表表1所示,其中,字段名称:title表示文章标题、time表示文章发布时间、source表示文章发布来源、category表示文章类别、url表示文章url地址、txt表示保存的文章文件名称、size表示文章txt文件大小、uid表示每篇文章的唯一标识ID。进一步地,在实际情况中,由于部分文章的内容实际上只有1、2行文字且跟任务需求无关,其对应的txt文件大小,往往在200kb以下,并不符合审核任务的需求,因此后续可以选择根据size字段的文件大小,对去除这一类文章。
表1
进一步地,预处理过程还包括将正文文本信息导入ElasticSearch索引库。为方便后续审核溯源过程中,准确的找到被引用文献的出处,因此本发明实施例中,也需要将每篇文献的正文文本信息存储在csv或excel文件内,这些源文本数据通常包括文献所在的文件路径、来源网站、发表时间、文件类型等审核溯源时必要的信息。本发明实施例中,具体可通过文献所在的文件路径获取被引用文献txt文件的内容,然后将这些数据信息批量导入到ElasticSearch的索引库(在ElasticSearch中,索引等同于关系型数据库例如mysql中的表。本发明实施例中,上述源文本数据在ElasticSearch索引库中,存在几个必要的参数以表示文献的具体信息,具体包括:索引库的名称(_index)、文献的基本信息和完整内容(_source),更加具体的字段信息如下:每篇文章的唯一id(article_id)、文章的完整内容(article)、文章标题(title)、文章的出处(source)、文章的url地址(source_url)、文章的发布时间(releaseTime)分别表示;上述括号中的英文表示实际应用过程中的具体代码的识别字段,一个具体的实施例如图4所示。
根据本发明的一些实施例,上述的步骤S200:应用滑动窗口算法处理第一分句列表,获得第二分句列表,并将第二分句列表导入ElasticSearch索引库,具体包括以下子步骤:
步骤S210:通过多个具有不同窗口长度的滑动窗口,以预设滑动步长在第一分句列表内从头至尾进行滑动;
步骤S220:在每次滑动过程中,将位于滑动窗口内的若干个第一分句拼接成第二分句;
步骤S230:根据获得的所有第二分句,获得第二分句列表,并将第二分句列表导入ElasticSearch索引库。
具体地,本发明实施例中,首先先采用窗口长度为1的滑动窗口在上述第一分句列表滑动,滑窗窗口算法的配置是步长为1,当窗口长度为1的滑动窗口在第一分句列表上的滑动结束后,令窗口长度加1,再重复对第一分句列表的滑动,直到窗口长度为10的滑动结束后完成滑动窗口的滑动流程,即在第一分句列表上进行10次滑动窗口的循环迭代,窗口长度为1时,包括1个第一分句;窗口长度为2时,窗口内包括两个第一分句,以此类推,并保存每一次滑动窗口迭代的结果于第二分句列表中。可以理解的是,窗口长度可以根据需要任意设置。
根据本发明的一些实施例,获取每个第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个分词特征,得到每个第一分词的特征向量,进而通过堆叠得到第二分句所有第一分词的特征向量矩阵;根据第二分句所有第一分词的特征向量矩阵,获得对应每个第二分句的上下文相关性特征向量,具体包括以下子步骤:
步骤S510:获取每个第一分词的多个分词特征,对每个分词特征,通过不同的哈希函数进行哈希映射,得到每个分词特征对应的行向量;
步骤S520:根据每个第一分词的所有分词特征的行向量,传入所述上下文相关性模型的Maxout层,得到第一分词的特征向量;
步骤S530:将每个第二分句的所有第一分词的特征向量进行堆叠,得到第二分句的特征向量矩阵;
步骤S540:将特征向量矩阵传入上下文相关性模型的残差卷积神经网络,获得对应每个第二分句的上下文相关性特征向量。
根据本发明的一些实施例,对每个分词特征,通过不同的哈希函数进行哈希映射,得到每个分词特征对应的行向量,具体包括以下子步骤:
步骤S511:通过矩阵处理工具生成特征嵌入表;特征嵌入表包括多个随机生成的行向量,每个行向量具有对应的行编号;
步骤S512:对每个分词特征,通过不同的哈希函数进行哈希映射,使每个分词特征分别获得行编号;
步骤S513:根据分词特征的行编号,获取分词特征在特征嵌入表内对应的行向量。
根据本发明的一些实施例,残差卷积神经网络包括四层,每一层使用卷积提取特征,卷积核大小为1;使用Maxout作为激活函数并对Maxout的输出结果做归一化处理;残差卷积神经网络还使用了残差连接以增强网络的表达能力。
具体地,参照图2~图3,本发明实施例将第二分句转换为上下文相关性特征向量的具体步骤包括嵌入(Embed)和编码(Encode)。表示过程如图2所示,图2中的特征嵌入表由Numpy工具随机生成,表内元素值为随机生成,处于-0.1~0.1之间,并不包含特定的含义;特征嵌入表行向量的数量可以根据需求自由设定。本发明实施例中,会抽取第一分词四个分词特征,即第一分词的本身形态、前缀、后缀以及形状;每个上述分词特征在特征嵌入表中都有相对应的区域,如图2所示,以句子“大熊猫在世界上是较为稀少的。”中的一个分词“较为稀少”的“形状”分词特征为例,首先根据“形状”特征在特征嵌入表内的区域,构建或引用4个不同的哈希函数,再通过上述4个不同的哈希函数对该特征分别进行4次哈希映射,得到4个不同行ID;由于哈希函数的针对性设置,行ID的数值一定会处于特征嵌入表对应特征区域的数值区间内,如图2所示,“形状”表内包含2500行向量,对应的区域为编号1~2500的向量,因此“形状”这一特征的行ID数值为1≤ID≤2500;再根据行ID获得“形状”表内对应位置的向量,继而得到了4个不同的向量,再将这4个向量累加即代表“形状”这一特征的向量表征,用/>表示。以此类推,本发明实施例中“本身形态”、“前缀”和“后缀”的向量表征分别用/>表示,其中“本身形态”在特征嵌入表内对应的区域为7501≤ID≤12500,“前缀”在特征嵌入表内对应的区域为5001≤ID≤7500,“后缀”在特征嵌入表内对应的区域为2501≤ID≤5000;向量/>在累加前的行向量对应的行ID也处于对应的数值区间。
进一步地,本发明实施例中,向量的维度设置为96,理所应当的,此维度可根据需求自由设置,除了设置为96以外,设置为128或300也属于优选的实施例。“本身形态”、“前缀”、“后缀”和“形状”的在特征嵌入表内分别具有5000、2500、2500、2500行向量,设置这些数值的目的是以防止多个文本特征共享同一个特征向量表的向量为前提,选择一个占用更小的向量表来表示文本特征,即确保不同文本特征哈希函数的输出结果无冲突。此外,采用4种不同的哈希函数进行4次映射也是为了防止多个文本特征共享同一个特征向量表的向量。理所应当的,哈希函数的种类、数量以及映射次数均可按照需求自由设置,本发明实施例经实际实验对比得出,进行4次哈希映射时,多个特征向量相同的概率低至,足够保证哈希函数运算结果无冲突,且具有极短的运算时间,符合日常文本审核的使用场景。
进一步地,获取向量后,还需要对这4个向量进行处理。本发明实施例的处理方式是将/>这4个向量合并为一个单一向量,为方便公式表示,下面用d表示向量维度,那么这个单一向量的维度就为4d;合并后,将上述单一向量传入上下文相关性模型中的一个Maxout函数层中,这个过程可由以下数学公式表示:
··········(1)
····(2)
其中,是形状为/>的参数矩阵,/>是大小为/>的一维偏置向量,它们是模型训练时可学习的权重参数。这里有采用/>是因为默认该Maxout层使用了3个神经元。这样,每一个第一分词都会输出一个/>维的特征向量,进而一个语句中的所有第一分词的特征向量就可以堆叠成一个第一分词个数乘以d的特征向量矩阵。
进一步地,上述特征向量矩阵只包含了第二分句所有第一分词的单独特征信息,并不不含这些第一分词之间的上下文相关性信息,因此需要通过编码步骤来获取第一分词之间的上下文相关性特征信息。编码步骤首先将上述特征向量矩阵传入一个4层的残差卷积神经网络,每一层使用卷积提取特征,使用Maxout作为激活函数并对Maxout的输出结果做归一化处理;再使用残差连接增强网络的表达能力。本发明实施例中,设定的残差卷积神经网络每一层的卷积核大小是1,输入和输出维度是96。这样,该网络的感受野将会是深度×(卷积核大小×2+1),卷积神经网络的感受野大小就是,即该神经网络在训练时,由于卷积和残差的特性,对于每个第一分词,会同时学习到其前后12个第一分词的上下文特征,总体来说,即捕捉到了这些第一分词的上下文前后顺序关系和耦合关系特征,也即上下文相关性信息。这一部分的神经网络结构如图3所示,表示该模型会输出一个96维的融合语句中所有第一分词的上下文相关性特征向量。进一步地,本发明实施例上述卷积核大小可以调整,优选的实施例是将卷积核调整为1~3。
根据本发明的一些实施例,将待审核文本输入至ElasticSearch索引库,通过ElasticSearch的查询方式,对待审核文本和上下文相关性特征向量进行相似度对比,并根据比较结果,获得与待审核文本相对应的审核溯源结果,具体包括以下子步骤:
步骤S710:将待审核文本输入至ElasticSearch索引库中;
步骤S720:通过ElasticSearch的match查询方式,对每个第二分句和待审核文本的字词相关性打分,使每个第二分句获得与待审核文本的字词相关性分数;
步骤S730:选择字词相关性分数最高的指定数量的第二分句,对应的上下文相关性特征向量与待审核文本的余弦相似度;
步骤S740:若余弦相似度大于预设的相似度阈值,则通过ElasticSearch的term查询方式,获得与待审核文本相对应的审核溯源结果。
具体地,本发明实施例将字词相似度(BM25算法)和上下文相关性特征向量相似度相结合来解决精准匹配的问题。图5为本发明实施例ElasticSearch查询的大致流程。
进一步地,本发明实施例中,在将待审核文本输入上下文相关性模型之前,为了防止长度过长的句子无法实现精准的匹配,也需要按标点符号将待审核文本细分为小句子列表,若列表中的小句子个数大于10,则将待审核文本截断,每10个小句子为一组,即先将前10个句子组成一个句子作为输入,然后是小句子第11到第20,直到待审核文本全部输入完毕最后。这样做原因是,本发明实施例在待审核文本导入ElasticSearch索引库时,所设置的最大滑动窗口长度是10,即索引库中的长句,其包含的短句最多只有10个,若当前输入句子的短句大于10,则需要截断,否则无法基于算法从句子索引库中精准查询到该句。可以理解的是,这里的列表中句子数量随窗口长度而改变,因此列表中小句子个数也可以按照需求任意设置。
进一步地,首先输入待审核文本,并对待审核文本采用ElasticSearch的match查询方式进行匹配,在进行match查询方式时,ElasticSearch会自动对输入的待审核文本和第二分句列表中的句子进行字词的相关性打分并按照得分从高到低排序,然后我们取前topK个查询结果作为接下来相似度计算和排序的候选集,本发明实施例设定K为30,即取前30个查询结果作为候选集;随后,计算候选集中的K个句子跟当前查询语句之间的上下文相关性特征向量的余弦相似度,经过排序后获取候选集中余弦相似度最高的结果。
进一步地,经过上述步骤后,每个输入语句都会匹配到一个跟其相似度(最高的句子,上述相似度处于0-1之间。如果待审核文本跟索引库中的内容完全没有关系或关系不大,即并非期望匹配的文本时,那么这个最高的相似度数值会很低,通常不会超过0.5,类似这种相似度数值较低的匹配结果一般来说表示待审核文本与第二分句列表中的句子差距较大,基本没有语义上的联系,并不是我们所需要的结果,因此为了保证文本审核和溯源的有效性,需要设定一个阈值,做进一步的筛选,若计算得到的余弦相似度小于阈值,则审核溯源结束,返回为空;若查询结果中,上述余弦相似度大于所设定的阈值,则根据本发明实施例中上述提到的该查询结果的article_id字段,通过ElasticSearch的term查询方式精准匹配到ElasticSearch索引库中的原文相关信息(正文文本信息),然后将句子匹配结果和(正文文本信息)的匹配结果的相关信息结合,输出最终结果。本发明实施例中,得到的结果包含的字段如下所示,根据输入的字段获取查询结果confidence字段即为算法的输入语句inputSentence和top1匹配语句matchSentence之间的余弦相似度;sentencePosition表示输入语句inputSentence在用户传入系统的文章(待审核文章)中的位置;meta表示matchSentence所在的原文信息,即源文本数据,其中span字段表示matchSentence在其原文中的位置。
优选地,在实际场景中,还会根据用户需求待审核文本相关的添加article字段,即将待审核文本的完整原文信息,之后可以通过在UI界面上通过高亮突出显示待审核文本部分,用户可以直观看到错误的引用语句所匹配到的正确语句或标准语句以及它在原文中的位置和原文出处。
另一方面,本发明还提供了一种文本引用审核溯源系统,包括:
源文本数据处理模块,用于获取包括若干篇文献的源文本数据,预处理源文本数据,以得到每篇文献的正文文本信息;
文本分句模块,用于分别对每篇文献的正文文本信息进行分句,得到每篇文献的正文文本信息所对应的第一分句列表,第一分句列表包括若干个第一分句;
滑动窗口模块,用于应用滑动窗口算法处理第一分句列表,获得第二分句列表,并将第二分句列表导入ElasticSearch索引库;第二分句列表包括若干个第二分句,第二分句由至少一个第一分句构成;
文本分词模块,用于对每个第二分句进行分词,获得若干个第一分词;
特征获取模块,用于获取每个第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个分词特征,得到每个第一分词的特征向量,并通过堆叠得到第二分句所有第一分词的特征向量矩阵;
上下文相关性向量获取模块,根据第二分句所有第一分词的特征向量矩阵,获得对应每个第二分句的上下文相关性特征向量,并将上下文相关性特征向量导入ElasticSearch索引库;
检索匹配模块,用于将待审核文本输入至ElasticSearch索引库,在ElasticSearch索引库中对待审核文本和上下文相关性特征向量进行相似度对比,并根据比较结果,获得待审核文本的审核溯源结果。
根据本发明的另一些实施例,文本引用审核溯源系统还包括显示模块,显示模块能够高亮显示审核溯源结果,以及显示对比分析信息。
另一方面,本发明还提供了一种计算机装置,包括存储器和处理器,存储器用于存储至少一个程序,处理器用于加载至少一个程序以执行上述方面实施例的文本引用审核溯源方法。
另一方面,本发明还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于执行如上述方面实施例中的文本引用审核溯源方法。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (10)
1.一种文本引用审核溯源方法,其特征在于,包括:
获取包括若干篇文献的源文本数据,并对所述源文本数据进行预处理,得到每篇所述文献的正文文本信息;
分别对每篇所述文献的正文文本信息进行分句,得到每篇所述文献的正文文本信息所对应的第一分句列表;所述第一分句列表包括若干个第一分句;
应用滑动窗口算法处理所述第一分句列表,获得第二分句列表,并将所述第二分句列表导入ElasticSearch索引库;所述第二分句列表包括若干个第二分句,所述第二分句由至少一个所述第一分句构成;
对每个所述第二分句进行分词,获得若干个第一分词;
获取每个所述第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个所述分词特征,得到每个所述第一分词的特征向量,并通过堆叠得到所述第二分句所有所述第一分词的特征向量矩阵;
根据所述第二分句所有所述第一分词的特征向量矩阵,获得对应每个所述第二分句的上下文相关性特征向量,并将所述上下文相关性特征向量导入所述ElasticSearch索引库;
将待审核文本输入至所述ElasticSearch索引库,在所述ElasticSearch索引库中对所述待审核文本和所述上下文相关性特征向量进行相似度对比,并根据比较结果,获得所述待审核文本的审核溯源结果。
2.根据权利要求1所述的文本引用审核溯源方法,其特征在于,所述获取包括若干篇文献的源文本数据,并对所述源文本数据进行预处理,得到每篇所述文献的正文文本信息,包括:
在目标网站爬取所述源文本数据;所述源文本数据包括若干篇文献;
对所述源文本数据进行数据清洗,以除去无关的页面元素、乱码和图片,从而获得每篇所述文献的所述正文文本信息。
3.根据权利要求1所述的文本引用审核溯源方法,其特征在于,所述应用滑动窗口算法处理所述第一分句列表,获得第二分句列表,并将所述第二分句列表导入所述ElasticSearch索引库,包括:
通过多个具有不同窗口长度的滑动窗口,以预设滑动步长在所述第一分句列表内从头至尾进行滑动;
在每次滑动过程中,将位于所述滑动窗口内的若干个第一分句拼接成所述第二分句;
根据获得的所有所述第二分句,获得所述第二分句列表,并将所述第二分句列表导入ElasticSearch索引库。
4.根据权利要求1所述的文本引用审核溯源方法,其特征在于,所述获取每个所述第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个所述分词特征,得到每个所述第一分词的特征向量,并通过堆叠得到所述第二分句所有所述第一分词的特征向量矩阵;根据所述第二分句的每个第一分词的所述特征向量,获得对应每个所述第二分句的上下文相关性特征向量,包括:
获取每个所述第一分词的多个分词特征,对每个所述分词特征,通过不同的哈希函数进行哈希映射,得到每个所述分词特征对应的行向量;
根据每个所述第一分词的所有分词特征的行向量,传入所述上下文相关性模型的Maxout层,得到所述第一分词的特征向量;
将每个所述第二分句的所有第一分词的特征向量进行堆叠,得到所述第二分句的特征向量矩阵;
将所述特征向量矩阵传入所述上下文相关性模型的残差卷积神经网络,获得对应每个所述第二分句的上下文相关性特征向量。
5.根据权利要求4所述的文本引用审核溯源方法,其特征在于,所述对每个所述分词特征,通过不同的哈希函数进行哈希映射,得到每个所述分词特征对应的行向量,包括:
通过矩阵处理工具生成特征嵌入表;所述特征嵌入表包括多个随机生成的行向量,每个所述行向量具有对应的行编号;
对每个所述分词特征,通过不同的哈希函数进行哈希映射,使每个所述分词特征分别获得行编号;
根据所述分词特征的行编号,获取所述分词特征在所述特征嵌入表内对应的行向量。
6.根据权利要求4所述的文本引用审核溯源方法,其特征在于,所述残差卷积神经网络包括四层,每一层使用卷积提取特征,卷积核大小为1;使用Maxout作为激活函数并对所述Maxout的输出结果做归一化处理;所述残差卷积神经网络还使用了残差连接以增强网络的表达能力。
7.根据权利要求1所述的文本引用审核溯源方法,其特征在于,所述将待审核文本输入至所述ElasticSearch索引库,在所述ElasticSearch索引库中对所述待审核文本和所述上下文相关性特征向量进行相似度对比,并根据比较结果,获得所述待审核文本的审核溯源结果,包括:
将所述待审核文本输入至所述ElasticSearch索引库中;
通过ElasticSearch的match查询方式,对每个所述第二分句和所述待审核文本的字词相关性打分,使每个所述第二分句获得与所述待审核文本的字词相关性分数;
选取所述字词相关性分数最高的指定数量的所述第二分句,计算选取的每个所述第二分句的所述上下文相关性特征向量与所述待审核文本的余弦相似度;
根据所述余弦相似度与预设的相似度阈值的比较结果,获得与所述待审核文本相对应的审核溯源结果。
8.一种文本引用审核溯源系统,其特征在于,包括:
源文本数据处理模块,用于获取包括若干篇文献的源文本数据,预处理所述源文本数据,以得到每篇所述文献的正文文本信息;
文本分句模块,用于分别对每篇所述文献的正文文本信息进行分句,得到每篇所述文献的正文文本信息所对应的第一分句列表,所述第一分句列表包括若干个第一分句;
滑动窗口模块,用于应用滑动窗口算法处理所述第一分句列表,获得第二分句列表,并将所述第二分句列表导入ElasticSearch索引库;所述第二分句列表包括若干个第二分句,所述第二分句由至少一个所述第一分句构成;
文本分词模块,用于对每个所述第二分句进行分词,获得若干个第一分词;
特征获取模块,用于获取每个所述第一分词的分词特征,并通过哈希函数和上下文相关性模型处理每个所述分词特征,得到每个所述第一分词的特征向量,并通过堆叠得到所述第二分句所有所述第一分词的特征向量矩阵;
上下文相关性向量获取模块,根据所述第二分句所有所述第一分词的特征向量矩阵,获得对应每个所述第二分句的上下文相关性特征向量,并将所述上下文相关性特征向量导入所述ElasticSearch索引库;
检索匹配模块,用于将待审核文本输入至所述ElasticSearch索引库,在所述ElasticSearch索引库中对所述待审核文本和所述上下文相关性特征向量进行相似度对比,并根据比较结果,获得所述待审核文本的审核溯源结果。
9.一种计算机装置,其特征在于,包括存储器和处理器,所述存储器用于存储至少一个程序,所述处理器用于加载所述至少一个程序以执行权利要求1-6中任一项所述的文本引用审核溯源方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-6中任一项所述的文本引用审核溯源方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311256067.7A CN116992874B (zh) | 2023-09-27 | 2023-09-27 | 一种文本引用审核溯源方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311256067.7A CN116992874B (zh) | 2023-09-27 | 2023-09-27 | 一种文本引用审核溯源方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116992874A CN116992874A (zh) | 2023-11-03 |
CN116992874B true CN116992874B (zh) | 2023-12-22 |
Family
ID=88534180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311256067.7A Active CN116992874B (zh) | 2023-09-27 | 2023-09-27 | 一种文本引用审核溯源方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116992874B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597768A (zh) * | 2020-12-08 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本审核方法、装置、电子设备、存储介质及程序产品 |
CN113312449A (zh) * | 2021-05-17 | 2021-08-27 | 华南理工大学 | 基于关键字和深度学习的文本审核方法、系统及介质 |
WO2021190662A1 (zh) * | 2020-10-31 | 2021-09-30 | 平安科技(深圳)有限公司 | 医学文献排序方法、装置、电子设备及存储介质 |
-
2023
- 2023-09-27 CN CN202311256067.7A patent/CN116992874B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021190662A1 (zh) * | 2020-10-31 | 2021-09-30 | 平安科技(深圳)有限公司 | 医学文献排序方法、装置、电子设备及存储介质 |
CN112597768A (zh) * | 2020-12-08 | 2021-04-02 | 北京百度网讯科技有限公司 | 文本审核方法、装置、电子设备、存储介质及程序产品 |
CN113312449A (zh) * | 2021-05-17 | 2021-08-27 | 华南理工大学 | 基于关键字和深度学习的文本审核方法、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116992874A (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN107491547B (zh) | 基于人工智能的搜索方法和装置 | |
US10503828B2 (en) | System and method for answering natural language question | |
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN110737758A (zh) | 用于生成模型的方法和装置 | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110750640A (zh) | 基于神经网络模型的文本数据分类方法、装置及存储介质 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN112183056A (zh) | 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和系统 | |
WO2021190662A1 (zh) | 医学文献排序方法、装置、电子设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110287396B (zh) | 文本匹配方法及装置 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
CN116992874B (zh) | 一种文本引用审核溯源方法、系统、装置和存储介质 | |
CN115796141A (zh) | 文本数据增强方法和装置、电子设备、存储介质 | |
CN116127060A (zh) | 一种基于提示词的文本分类方法及系统 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN114595684A (zh) | 一种摘要生成方法、装置、电子设备及存储介质 | |
CN114238663B (zh) | 一种材料数据用知识图谱分析方法、系统、电子设备及介质 | |
CN117708308B (zh) | 一种基于rag自然语言智能知识库管理的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |