CN113221536A - 一种基于自然语言分析文件中相似段落的方法及装置 - Google Patents
一种基于自然语言分析文件中相似段落的方法及装置 Download PDFInfo
- Publication number
- CN113221536A CN113221536A CN202011587935.6A CN202011587935A CN113221536A CN 113221536 A CN113221536 A CN 113221536A CN 202011587935 A CN202011587935 A CN 202011587935A CN 113221536 A CN113221536 A CN 113221536A
- Authority
- CN
- China
- Prior art keywords
- character information
- information
- word
- similarity
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 24
- 239000013598 vector Substances 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像识别领域,具体公开了一种基于自然语言分析文件中相似段落的方法,包括以下步骤:将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;对所述第一文字信息和第二文字信息进行分词处理;根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;本发明实现了精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。
Description
技术领域
本发明涉及图像识别领域,特别是涉及一种基于自然语言分析文件中相似段落的方法及装置。
背景技术
自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的。随着计算机和互联网的广泛应用,也随之衍生出了一系列的产品。目前,以文本识别为代表的识别技术正快速发展。但在进行文本识别时,可能存在部分字符不清晰的情况,字符不够清晰,从而降低了文本识别的准确率。
发明内容
针对上述问题,本发明的目的在于提供了一种基于自然语言分析文件中相似段落的方法及装置。
为解决上述问题,本发明第一方面提供了一种基于自然语言分析文件中相似段落的方法,包括以下步骤:
S1. 将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
S2.对所述第一文字信息和第二文字信息进行分词处理;
S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
S4.确定各词语的上下文内容,从而判断文件中的相似段落。
优选地,步骤S2包括:根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。
优选地,步骤S3包括:根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度;根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度;
优选地,所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度,具体为:
根据所述第一文字信息的分词结果,获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置;
根据所述第二文字信息的分词结果,获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置;
优选地,根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度;根据公式计算第一文字信息和第二文字信息的坐标位置相似度。
优选地,计算所述第一文字信息和第二文字信息的坐标位置相似度包括:在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度;
其中,Wi为第一文字信息的词的语相邻坐标点,为第一文字信息的长度以及词语在第一文字信息中的相对位置,Wj为第二文字信息的词的语相邻坐标点,为第二文字信息的长度以及词语在第一文字信息中的相对位置;L1为第一文字信息的词语的长度;L2为第二文字信息的词语的长度。
优选地,步骤S4包括:根据所述第一文字信息和第二文字信息的坐标位置相似度,计算所述第一文字信息和第二文字信息的语义相似度,确定各词语的上下文内容,从而判断文件中的相似段落。
本发明第二方面提供了一种基于自然语言分析文件中相似段落的装置,包括
图像识别模块:所述的图像识别模块用于将原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
提取分词模块:对所述第一文字信息和第二文字信息进行分词处理;
计算语义相似度模块:所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
相似段落判定模块:所述的相似段落判定模块用于确定各词语的上下文内容,从而判断文件中的相似段落。
与现有技术相比,本发明将两张图片识别出第一文字信息和第二文字信息,再将文字信息进行分词,用过计算第一文字信息和第二文字信息词语的相似度和坐标位置相似度,进而计算出语义特征向量的相似度,通过特征向量的相似度确定各词语的上下文内容,从而判断文件中的相似段落。实现精确识别文本内容、精确定位文字位置及快速识别相似段落的目的。
附图说明
图1为本发明实施例提供了一种基于自然语言分析文件中相似段落的方法流程图。
图2为本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置。
施例提供的一种基于自然语言分析文件中相似段落的装置的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明实施例提供了一种基于自然语言分析文件中相似段落的方法,包括以下步骤:
S1. 将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
S2.对所述第一文字信息和第二文字信息进行分词处理;
在本发明实施中,步骤S2包括:根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。
S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
在本发明实施中,步骤S3包括:根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度;根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度;
在本发明实施中,所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度,具体为:
根据所述第一文字信息的分词结果,获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置;
根据所述第二文字信息的分词结果,获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置;
在本发明实施中,根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度;根据公式计算第一文字信息和第二文字信息的坐标位置相似度。
在本发明实施中,计算所述第一文字信息和第二文字信息的坐标位置相似度包括:在所述语义特征向量坐标上获取第一文字信息的词语和第二文字信息的词语的相邻坐标点和长度;
其中,Wi为第一文字信息的词的语相邻坐标点,为第一文字信息的长度以及词语在第一文字信息中的相对位置,Wj为第二文字信息的词的语相邻坐标点,为第二文字信息的长度以及词语在第一文字信息中的相对位置;L1为第一文字信息的词语的长度;L2为第二文字信息的词语的长度。
S4.确定各词语的上下文内容,从而判断文件中的相似段落。
在本发明实施中,步骤S4包括:根据所述第一文字信息和第二文字信息的坐标位置相似度,计算所述第一文字信息和第二文字信息的语义相似度,确定各词语的上下文内容,从而判断文件中的相似段落。
请参阅图2,本发明实施例第二方面提供了一种基于自然语言分析文件中相似段落的装置,包括
图像识别模块201:所述的图像识别模块用于将原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
提取分词模块202:对所述第一文字信息和第二文字信息进行分词处理;
计算语义相似度模块203:所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
相似段落判定模块204:所述的相似段落判定模块用于确定各词语的上下文内容,从而判断文件中的相似段落。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于自然语言分析文件中相似段落的方法,其特征在于,包括:
S1.将文件转化成图像,生成原图像和目标图像,对原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
S2.对所述第一文字信息和第二文字信息进行分词处理;
S3.根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
S4.确定各词语的上下文内容,从而判断文件中的相似段落。
2.根据权利要求1所述的语义相似度的计算方法,其特征在于,步骤S2包括:根据所述第一文字信息的词语数据得到的第一文字信息的语义特征向量、根据所述第二文字信息的词语数据得到的第二文字信息的语义特征向量。
3.根据权利要求1基于自然语言分析文件中相似段落的方法,其特征在于,步骤S3包括:根据所述语义特征向量计算所述第一文字信息和第二文字信息的余弦相似度;根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度。
4.根据权利要求2基于自然语言分析文件中相似段落的方法,其特征在于,所述根据所述语义特征向量获得所述第一文字信息的任意一个词语和第二文字信息的任意一个词语的相似度,以计算所述第一文字信息和第二文字信息的坐标位置相似度,具体为:
根据所述第一文字信息的分词结果,获得所述第一文字信息中词语总数、第一文字信息的长度以及词语在第一文字信息中的相对位置;
根据所述第二文字信息的分词结果,获得所述第二文字信息中词语总数、第二文字信息的长度以及词语在第二文字信息中的相对位置。
5.根据权利要求4基于自然语言分析文件中相似段落的方法,其特征在于,根据所述语义特征向量计算第一文字信息的词语和第二文字信息的词语的相似度;根据公式计算第一文字信息和第二文字信息的坐标位置相似度。
7.根据权利要求1基于自然语言分析文件中相似段落的方法,其特征在于,步骤S4包括:根据所述第一文字信息和第二文字信息的坐标位置相似度,计算所述第一文字信息和第二文字信息的语义相似度,确定各词语的上下文内容,从而判断文件中的相似段落。
8.一种基于自然语言分析文件中相似段落的装置,其特征在于:包括
图像识别模块:所述的图像识别模块用于将原图像和目标图像进行识别,获取第一文字信息和第二文字信息;
提取分词模块:对所述第一文字信息和第二文字信息进行分词处理;
计算语义相似度模块:所述的计算语义相似度模块用于根据分词处理得到所述第一文字信息和第二文字信息词语数据,计算所述第一文字信息和第二文字信息的语义相似度;
相似段落判定模块:所述的相似段落判定模块用于确定各词语的上下文内容,从而判断文件中的相似段落。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011587935.6A CN113221536A (zh) | 2020-12-29 | 2020-12-29 | 一种基于自然语言分析文件中相似段落的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011587935.6A CN113221536A (zh) | 2020-12-29 | 2020-12-29 | 一种基于自然语言分析文件中相似段落的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113221536A true CN113221536A (zh) | 2021-08-06 |
Family
ID=77085953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011587935.6A Pending CN113221536A (zh) | 2020-12-29 | 2020-12-29 | 一种基于自然语言分析文件中相似段落的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113221536A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128364A (zh) * | 2023-02-20 | 2023-05-16 | 北京中联迅捷通信科技有限公司 | 一种文本撰写质量监控方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090024606A1 (en) * | 2007-07-20 | 2009-01-22 | Google Inc. | Identifying and Linking Similar Passages in a Digital Text Corpus |
CN107015961A (zh) * | 2016-01-27 | 2017-08-04 | 中文在线数字出版集团股份有限公司 | 一种文本相似性比对方法 |
CN109145085A (zh) * | 2018-07-18 | 2019-01-04 | 北京市农林科学院 | 语义相似度的计算方法及系统 |
CN111694978A (zh) * | 2020-05-20 | 2020-09-22 | Oppo(重庆)智能科技有限公司 | 图像相似度检测方法、装置、存储介质与电子设备 |
CN111949766A (zh) * | 2020-08-20 | 2020-11-17 | 深圳市卡牛科技有限公司 | 一种文本相似度的识别方法、系统、设备和存储介质 |
-
2020
- 2020-12-29 CN CN202011587935.6A patent/CN113221536A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090024606A1 (en) * | 2007-07-20 | 2009-01-22 | Google Inc. | Identifying and Linking Similar Passages in a Digital Text Corpus |
CN107015961A (zh) * | 2016-01-27 | 2017-08-04 | 中文在线数字出版集团股份有限公司 | 一种文本相似性比对方法 |
CN109145085A (zh) * | 2018-07-18 | 2019-01-04 | 北京市农林科学院 | 语义相似度的计算方法及系统 |
CN111694978A (zh) * | 2020-05-20 | 2020-09-22 | Oppo(重庆)智能科技有限公司 | 图像相似度检测方法、装置、存储介质与电子设备 |
CN111949766A (zh) * | 2020-08-20 | 2020-11-17 | 深圳市卡牛科技有限公司 | 一种文本相似度的识别方法、系统、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116128364A (zh) * | 2023-02-20 | 2023-05-16 | 北京中联迅捷通信科技有限公司 | 一种文本撰写质量监控方法与系统 |
CN116128364B (zh) * | 2023-02-20 | 2024-01-16 | 北京天方智力知识产权代理有限公司 | 一种文本撰写质量监控方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3975123A1 (en) | Map constructing method, positioning method and system, wireless communication terminal, and computer-readable medium | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
CN111709240A (zh) | 实体关系抽取方法、装置、设备及其存储介质 | |
CN112396049A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN107193796B (zh) | 一种舆情事件检测方法及装置 | |
CN105117740B (zh) | 字体识别方法及装置 | |
CN108062307B (zh) | 基于词嵌入模型的文本语义隐写分析方法 | |
CN111241230A (zh) | 一种基于文本挖掘识别串标风险的方法及系统 | |
US20150055866A1 (en) | Optical character recognition by iterative re-segmentation of text images using high-level cues | |
CN112052687A (zh) | 基于深度可分离卷积的语义特征处理方法、装置及介质 | |
CN112801099B (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN118015644B (zh) | 基于图片和文字的社交媒体关键词数据分析方法及装置 | |
CN113221536A (zh) | 一种基于自然语言分析文件中相似段落的方法及装置 | |
Dat et al. | An improved CRNN for Vietnamese Identity Card Information Recognition. | |
CN113177542A (zh) | 识别印章文字的方法、装置、设备和计算机可读介质 | |
CN111368532B (zh) | 一种基于lda的主题词嵌入消歧方法及系统 | |
CN108021918B (zh) | 文字识别方法及装置 | |
Kesorn et al. | Optical Character Recognition (OCR) enhancement using an approximate string matching technique. | |
CN116311276A (zh) | 文档图像矫正方法、装置、电子设备及可读介质 | |
CN115563515A (zh) | 文本相似性检测方法、装置、设备及存储介质 | |
CN115294578A (zh) | 基于人工智能的文本信息提取方法、装置、设备及介质 | |
CN114898375A (zh) | 字符检测模型训练方法及组件,文本识别方法及组件 | |
CN115147846A (zh) | 多语言票据识别方法、装置、设备及存储介质 | |
US20230036812A1 (en) | Text Line Detection | |
CN116324910A (zh) | 用于执行设备上图像到文本转换的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210806 |