CN109710920A - 文字云的内容语句和词语的解析方法及装置 - Google Patents

文字云的内容语句和词语的解析方法及装置 Download PDF

Info

Publication number
CN109710920A
CN109710920A CN201811481265.2A CN201811481265A CN109710920A CN 109710920 A CN109710920 A CN 109710920A CN 201811481265 A CN201811481265 A CN 201811481265A CN 109710920 A CN109710920 A CN 109710920A
Authority
CN
China
Prior art keywords
word
sentence
content
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811481265.2A
Other languages
English (en)
Inventor
蒋渊
高若愚
潘蕊
李邦源
董凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Original Assignee
Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd filed Critical Yuxi Power Supply Bureau of Yunnan Power Grid Co Ltd
Priority to CN201811481265.2A priority Critical patent/CN109710920A/zh
Publication of CN109710920A publication Critical patent/CN109710920A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种文字云的内容语句和词语的解析方法及装置,方法包括:获取文字云的图像;进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对文字云的内容进行文字归类;按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,对语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义;输出文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容。本发明能将文字云的内容输出可以快速理解的方式、能提高对文字云的内容语句及行业术语含义识别与关联呈现的效率。

Description

文字云的内容语句和词语的解析方法及装置
技术领域
本发明涉及广告宣传领域,特别涉及一种文字云的内容语句和词语的解析方法及装置。
背景技术
随着广告宣传行业中对视觉效果的进一步追求,文字云由于可以在不同的图案形状中加入语句、词语内容加以表达,达到形、义同达的宣传效果,而被广泛的使用在社交配图、PPT文档等内容中,但由于要堆积出对应图案的形状,所以通常引用的语句、词语均被在形状中被多次重复填充,及按照不同颜色、字体、大小、间距、旋转角度等格式形态进行变换穿插,导致图案形状的语句、词语内容识别非常繁琐。
文字云内容的识别,目前是通过OCR技术对其中的逐个文字进行识别提取,识别方法包含对任一颜色、字体、大小、旋转角度等格式形态,最终按照文字的位置进行统一格式的展示。现有技术仅针对逐个文字的识别与统一格式展示,无法按照文字云生成前的语句内容进行准确拼装还原,导致重复的个体文字出现在结果文档中,更难以以特定规律理解文字云内容的原含义及进一步进行语句中关键词分析。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能将文字云的内容输出可以快速理解的方式、能提高对文字云的内容语句及行业术语含义识别与关联呈现的效率的文字云的内容语句和词语的解析方法及装置。
本发明解决其技术问题所采用的技术方案是:构造一种文字云的内容语句和词语的解析方法,包括如下步骤:
A)获取文字云的图像,并将其加载到运算方法中进行图像OCR识别;
B)对图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对所述文字云的内容进行文字归类;
C)对归类后的文字按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对所述语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义;
D)输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容;
E)对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
在本发明所述的文字云的内容语句和词语的解析方法中,所述一定规律的旋转角度指的是相关文字以同一规律的旋转角度进行排列展示。
在本发明所述的文字云的内容语句和词语的解析方法中,在所述步骤A)中,通过文件读取、API交互或图像数据流解析式获取所述文字云的图像。
在本发明所述的文字云的内容语句和词语的解析方法中,在所述步骤D)中,通过界面或API方式输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容。
在本发明所述的文字云的内容语句和词语的解析方法中,在所述步骤E)中,通过界面或API方式对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
本发明还涉及一种实现上述文字云的内容语句和词语的解析方法的装置,包括:
图像数据加载模块:用于获取文字云的图像,并将其加载到运算方法中进行图像OCR识别;
图像OCR识别模块:用于对图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对所述文字云的内容进行文字归类;
图像内容分析模块:用于对归类后的文字按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对所述语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义;
结果展示模块:用于输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容;
修正模块:用于对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出;
所述图像数据加载模块依次通过所述图像OCR识别模块、图像内容分析模块和结果展示模块与所述修正模块连接。
在本发明所述的装置中,所述一定规律的旋转角度指的是相关文字以同一规律的旋转角度进行排列展示。
在本发明所述的装置中,在所述图像数据加载模块中,通过文件读取、API交互或图像数据流解析式获取所述文字云的图像。
在本发明所述的装置中,在所述结果展示模块中,通过界面或API方式输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容。
在本发明所述的装置中,在所述修正模块中,通过界面或API方式对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
实施本发明的文字云的内容语句和词语的解析方法及装置,具有以下有益效果:本发明采用同类颜色、字体、大小、间距、一定规律的旋转角度对文字云的内容进行文字归类,并采用语句特征还原各语句,剔除重复语句后,再通过词语特征库标注行业词语含义,从而把文字云的内容输出可以快速理解的方式;只需要将文字云的图像加载进来后,即可识别出文字云中包含的语句,进行整理、剔重呈现,并将语句中包含的词语在具体行业的含义及其他行业的含义进行呈现,及提供修正功能,可逐步丰富语句特征库及词语特征库,提高在生活生产过程中对文字云的内容语句及行业术语含义识别与关联呈现的效率,因此本发明能将文字云的内容输出可以快速理解的方式、能提高对文字云的内容语句及行业术语含义识别与关联呈现的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明文字云的内容语句和词语的解析方法及装置一个实施例中方法的流程图;
图2为所述实施例中文字按照一定规律的旋转角度排列的示意图;
图3为所述实施例中文字云的输入输出示意图;
图4为所述实施例中装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明文字云的内容语句和词语的解析方法及装置实施例中,该文字云的内容语句和词语的解析方法的流程图如图1所示。图1中,该文字云的内容语句和词语的解析方法包括如下步骤:
步骤S01获取文字云的图像,并将其加载到运算方法中进行图像OCR识别:本步骤中,获取文字云的图像,并将其加载到运算方法中进行图像OCR识别。文字云由一个或多个图案的形状由一个或多个语句、词语按照一定规律堆积、叠放而形成。OCR,又名光学字符识别方法,表示将图像的字符形状特征翻译成计算机文字的过程。本步骤中,具体是通过文件读取、API交互或图像数据流解析式获取文字云的图像。通过该步骤实现图像数据加载。
步骤S02对图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对文字云的内容进行文字归类:本步骤中,对文字云的图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对文字云的内容进行文字归类。其中一定规律的旋转角度指的是相关文字以同一规律的旋转角度进行排列展示,比如:多个文字的底端都是水平、垂直、锐角或其它角度进行排列,或多个文字的边角按某个角度进行排列但各文字的底端跟水平线形成同一角度或以角度递增、递减某个规律值进行排列。图2为本实施例中文字按照一定规律的旋转角度排列的示意图。通过该步骤实现OCR识别归类。
步骤S03对归类后的文字按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义:本实施例中,对语句特征库和词语特征库来讲,语句特征库:根据汉语语法的句子结构“(定语)主语+[状语]谓语<补语>+(定语)宾语”,及定语通常情况下以名词、动词、形容词、代词等词性构成,及主语通常情况下以名词、代词等词性构成,将汉语字典库中文字、词语增加到语句特征库中,并标注它的词性;同时其它类型的语言也可结合它的句子语法及字典库进行类似处理。由此可见,语句特征库将汉语或其他语言的字典库中文字、词语增加到语句特征库中,并标注它的词性。词语特征库:记录相关行业的术语,并对术语所属行业进行归类,以及对术语的含义进行描述。
本步骤中,通过对图像OCR识别后归类的文字,按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义(即行业词义)。
具体而言,按照标点符号、空格和语句特征库为分界,其中标点符号、空格和语句特征库的优先顺序、是否以该类型运算均可由系统进行配置。默认顺序为:具备标点符号的,按照标点符号为分界,将前后的文字各组成语句;不具备标点符号,但具备空格的,按照空格为分界,将前后的文字各组成语句;不具备标点符号和空格的,按照语句特征库以定语、主语词性的文字或文字词语为对象,将前面的文字、该对象及后面的文字各组成语句。通过该步骤实现语句内容识别。
步骤S04输出文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容:本步骤中,输出文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容,具体是通过界面或API方式输出文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容,各内容可通过筛选条件定义是否输出。通过该步骤实现结果展示。图3为本实施例中文字云的输入输出示意图。
步骤S05对语句特征库和词语特征库中的内容进行查询、补充、修改或输出:本步骤中,对语句特征库和词语特征库中的内容进行查询、补充、修改或输出,具体是通过界面或API方式对语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
本发明的文字云的内容语句和词语的解析方法采用同类颜色、字体、大小、间距、一定规律的旋转角度对文字云的内容进行文字归类,并采用语句特征还原各语句,剔除重复语句后,再通过词语特征库标注行业词语含义,从而把文字云的内容输出可以快速理解的方式;只需要将文字云的图像加载进来后,即可识别出文字云中包含的语句,进行整理、剔重呈现,并将语句中包含的词语在具体行业的含义及其他行业的含义进行呈现,及提供修正功能,可逐步丰富语句特征库及词语特征库,提高在生活生产过程中对文字云的内容语句及行业术语含义识别与关联呈现的效率,因此本发明能将文字云的内容输出可以快速理解的方式、能提高对文字云的内容语句及行业术语含义识别与关联呈现的效率。
本实施例还涉及一种实现上述文字云的内容语句和词语的解析方法的装置,其结构示意图如图4所示。图4中,该装置包括图像数据加载模块1、图像OCR识别模块2、图像内容分析模块3、结果展示模块4和修正模块5;图像数据加载模块1依次通过所述图像OCR识别模块2、图像内容分析模块3和结果展示模块4与修正模块5连接。
图像数据加载模块1用于获取文字云的图像,并将其加载到运算方法中进行图像OCR识别;在图像数据加载模块1中,通过文件读取、API交互或图像数据流解析式获取文字云的图像。
图像OCR识别模块2用于对图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对文字云的内容进行文字归类;一定规律的旋转角度指的是相关文字以同一规律的旋转角度进行排列展示。
图像内容分析模块3用于对归类后的文字按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义。
结果展示模块4用于输出文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容;在结果展示模块4中,通过界面或API方式输出文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容。
修正模块5用于对语句特征库和词语特征库中的内容进行查询、补充、修改或输出。在修正模块5中,通过界面或API方式对语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
本发明的装置采用同类颜色、字体、大小、间距、一定规律的旋转角度对文字云的内容进行文字归类,并采用语句特征还原各语句,剔除重复语句后,再通过词语特征库标注行业词语含义,从而把文字云的内容输出可以快速理解的方式;只需要将文字云的图像加载进来后,即可识别出文字云中包含的语句,进行整理、剔重呈现,并将语句中包含的词语在具体行业的含义及其他行业的含义进行呈现,及提供修正功能,可逐步丰富语句特征库及词语特征库,提高在生活生产过程中对文字云的内容语句及行业术语含义识别与关联呈现的效率,因此本发明能将文字云的内容输出可以快速理解的方式、能提高对文字云的内容语句及行业术语含义识别与关联呈现的效率。
总之,本发明与传统技术相比,其能将文字云的内容输出可以快速理解的方式、能提高对文字云的内容语句及行业术语含义识别与关联呈现的效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文字云的内容语句和词语的解析方法,其特征在于,包括如下步骤:
A)获取文字云的图像,并将其加载到运算方法中进行图像OCR识别;
B)对图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对所述文字云的内容进行文字归类;
C)对归类后的文字按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对所述语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义;
D)输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容;
E)对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
2.根据权利要求1所述的文字云的内容语句和词语的解析方法,其特征在于,所述一定规律的旋转角度指的是相关文字以同一规律的旋转角度进行排列展示。
3.根据权利要求2所述的文字云的内容语句和词语的解析方法,其特征在于,在所述步骤A)中,通过文件读取、API交互或图像数据流解析式获取所述文字云的图像。
4.根据权利要求3所述的文字云的内容语句和词语的解析方法,其特征在于,在所述步骤D)中,通过界面或API方式输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容。
5.根据权利要求1至4任意一项所述的文字云的内容语句和词语的解析方法,其特征在于,在所述步骤E)中,通过界面或API方式对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
6.一种实现如权利要求1所述的文字云的内容语句和词语的解析方法的装置,其特征在于,包括:
图像数据加载模块:用于获取文字云的图像,并将其加载到运算方法中进行图像OCR识别;
图像OCR识别模块:用于对图像形状中的文字进行OCR识别提取后,按照颜色、字体、大小、间距和一定规律的旋转角度对所述文字云的内容进行文字归类;
图像内容分析模块:用于对归类后的文字按照标点符号、空格和语句特征库为分界进一步归类成语句,再进行剔重,最后结合词语特征库对所述语句中的各词语进行分析,当包含的词语有对应行业信息时,以各词语的行业在各词语的行业总数中占比最多的行业为唯一定义,优先关联匹配该词语在该行业的含义;
结果展示模块:用于输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容;
修正模块:用于对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出;
所述图像数据加载模块依次通过所述图像OCR识别模块、图像内容分析模块和结果展示模块与所述修正模块连接。
7.根据权利要求6所述的装置,其特征在于,所述一定规律的旋转角度指的是相关文字以同一规律的旋转角度进行排列展示。
8.根据权利要求7所述的装置,其特征在于,在所述图像数据加载模块中,通过文件读取、API交互或图像数据流解析式获取所述文字云的图像。
9.根据权利要求8所述的装置,其特征在于,在所述结果展示模块中,通过界面或API方式输出所述文字云的内容、图像内容分析的语句及语句中词语的优先关联配对的含义内容或其他相关含义内容。
10.根据权利要求6至9任意一项所述的装置,其特征在于,在所述修正模块中,通过界面或API方式对所述语句特征库和词语特征库中的内容进行查询、补充、修改或输出。
CN201811481265.2A 2018-12-05 2018-12-05 文字云的内容语句和词语的解析方法及装置 Withdrawn CN109710920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811481265.2A CN109710920A (zh) 2018-12-05 2018-12-05 文字云的内容语句和词语的解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811481265.2A CN109710920A (zh) 2018-12-05 2018-12-05 文字云的内容语句和词语的解析方法及装置

Publications (1)

Publication Number Publication Date
CN109710920A true CN109710920A (zh) 2019-05-03

Family

ID=66253940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811481265.2A Withdrawn CN109710920A (zh) 2018-12-05 2018-12-05 文字云的内容语句和词语的解析方法及装置

Country Status (1)

Country Link
CN (1) CN109710920A (zh)

Similar Documents

Publication Publication Date Title
Das et al. A benchmark image database of isolated Bangla handwritten compound characters
CN108009293A (zh) 视频标签生成方法、装置、计算机设备和存储介质
CN105630817B (zh) 一种电子发票内容解析的方法及系统
CN104809142A (zh) 商标查询系统和方法
CN109933796A (zh) 一种公告文本关键信息提取方法及设备
Antonacopoulos et al. ICDAR 2013 competition on historical book recognition (HBR 2013)
Chu et al. Chinese Characters Mapping Table of Japanese, Traditional Chinese and Simplified Chinese.
CN103093252A (zh) 信息输出装置以及信息输出方法
CN103902918B (zh) 一种从Word文档中快速提取文字格式的方法和装置
CN108681529A (zh) 一种流程模型图的多语言文本及语音生成方法
CN103324607B (zh) 一种泰语文本切词方法及装置
CN110196929A (zh) 问答对的生成方法和装置
Mozaffari et al. IfN/Farsi-Database: a database of Farsi handwritten city names
Joyce et al. Orthographic representation and variation within the Japanese writing system: Some corpus-based observations
CN106156005A (zh) 基于可视化的古诗词特征分析方法
CN110110326B (zh) 一种基于主题信息的文本切割方法
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN110765107B (zh) 基于数字化编码的题型识别方法及其系统
CN109710920A (zh) 文字云的内容语句和词语的解析方法及装置
KR102040088B1 (ko) 템플릿을 이용한 개인화 폰트 생성 방법 및 시스템
JP2010102564A (ja) 感情特定装置、その方法、プログラム及び記録媒体
KR102602836B1 (ko) 복잡한 다단 구조의 레이아웃으로 구성된 전자책 및 전자문서 데이터의 음성 합성 방법 및 장치
CN109657207B (zh) 条款的格式化处理方法和处理装置
CN114332476A (zh) 维语识别方法、装置、电子设备、存储介质和产品
Al-Barhamtoshy et al. Development of an intelligent arabic text translation model for deaf students using state of the art information technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190503

WW01 Invention patent application withdrawn after publication