CN111177317A - 一种文学理论快速检索查询系统及方法 - Google Patents

一种文学理论快速检索查询系统及方法 Download PDF

Info

Publication number
CN111177317A
CN111177317A CN201911328106.3A CN201911328106A CN111177317A CN 111177317 A CN111177317 A CN 111177317A CN 201911328106 A CN201911328106 A CN 201911328106A CN 111177317 A CN111177317 A CN 111177317A
Authority
CN
China
Prior art keywords
character
pinyin
module
retrieval
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911328106.3A
Other languages
English (en)
Inventor
王晓英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luliang University
Original Assignee
Luliang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luliang University filed Critical Luliang University
Priority to CN201911328106.3A priority Critical patent/CN111177317A/zh
Publication of CN111177317A publication Critical patent/CN111177317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Library & Information Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明的一种文学理论快速检索查询系统及方法,属于文学理论检索技术领域。输入模块进行图像采集,图像区分筛选图像中的文字区域,文字识别模块将文字区域数据进行识别得到文字数据,拼音生成模块将文字数据生成拼音数据,拼音检索模块得到拼音检索结果;文字检索模块得到文字检索结果,分析模块将文字检索结果与拼音检索结果进行匹配,识别图像中的文字并通过文字和拼音分别进行检索,并将检索得到的文字结果与拼音结果进行匹配,当拼音检索模块的拼音检索结果与文字检索模块的文字检索结果匹配率大于70%时,输出模块输出检索到的文字数据,进一步提升了检索过程的降噪效果,保证了文学理论查询结果的正确性。

Description

一种文学理论快速检索查询系统及方法
技术领域
本发明属于文学理论检索技术领域,具体来说是一种文学理论快速检索查询系统及方法。
背景技术
文学理论是指有关文学的本质、特征、发展规律和社会作用的原理、原则。文艺学的一个门类。广义的文艺学,是研究文学艺术的科学;狭义的文艺学,只研究文学。传统的习惯把它分成三个门类:文学理论、文学史和文学批评。它们都以文学为研究对象,都要求把历史的、现实的文学理论与文学史和逻辑的研究结合起来。文学史重在对文学的历史研究;文学批评重在对文学的现实研究;文学理论则重在对文学作逻辑的研究。从古往今来的文学现象中,找出文学的本质和规律,揭示文学的不同形态的特点。
现有的文学理论查阅通过输入关键词进行查阅,不能对图像文字进行准确识别,且关键字查阅结果不准确,无法进行降噪。
发明内容
1.发明要解决的技术问题
本发明的目的在于解决现有的文学理论查阅通过输入关键词进行查阅,不能对图像文字进行准确识别,且关键字查阅结果不准确,无法进行降噪的问题。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的一种文学理论快速检索查询系统,包括
输入模块,该输入模块用于输入需要检索的文学理论内容,所述输入模块包括图像采集单元;
图像区分模块,该图像区分模块与图像采集单元连接,图像区分模块用于对图像采集单元采集的图像进行识别并筛选图像中的文字区域;
文字识别模块,该文字识别模块与图像区分模块连接,文字识别模块用于对图像区分模块筛选后的文字区域内进行文字识别并得到文字;
拼音生成模块,该拼音生成模块与文字识别模块连接,拼音生成模块用于将文字识别模块得到的文字生成拼音;
拼音检索模块,该拼音检索模块与拼音生成模块连接,所述拼音检索模块用于将拼音生成模块生成的拼音进行检索;
文字拼音数据库,该文字拼音数据库与拼音检索模块连接,所述文字拼音数据库内存储有文字理论文件的拼音数据,所述文字拼音数据库用于为拼音检索模块的检索提供对比数据,拼音检索模块将拼音生成模块生成的拼音与文字拼音数据库内的文学理论拼音数据进行匹配得到检索结果;
文字检索模块,该文字检索模块与文字识别模块连接,所述文字检索模块用于将文字识别模块识别得到的文字进行检索;
文学文字数据库,该文学文字数据库与文字检索模块连接,所述文学文字数据库内存储有文学理论文件的文字数据,文字检索模块将文字识别模块识别得到的文字与文学文字数据库内的文学理论文件的文字数据进行匹配得到检索结果。
分析模块,该分析模块与拼音检索模块、文字检索模块连接,所述分析模块用于将拼音检索模块的拼音检索结果与文字检索模块的文字检索结果进行匹配;
输出模块,该输出模块与分析模块连接,所述输出模块用于对分析模块的数据进行显示,当拼音检索模块的拼音检索结果与文字检索模块的文字检索结果匹配率大于70%时,输出模块输出检索到的文字数据,当拼音检索模块的拼音检索结果与文字检索模块的文字检索结果匹配率小于70%时,输出模块输出检索失败。
优选地,还包括控制模块,所述控制模块为控制器,该控制器同时与文字识别模块、拼音生成模块、拼音检索模块、文字检索模块、分析模块连接,所述控制模块用于控制如下过程:控制文字识别模块将识别的文字数据输送给拼音生成模块和文字检索模块,控制拼音生成模块根据控制文字识别模块输送的文字数据生成拼音数据并输送给拼音检索模块。
一种文学理论快速检索查询方法,采用上述所述的文学理论快速检索查询系统,所述方法为:输入模块的图像采集单元将需要识别的文学理论进行图像采集并将图像采集数据输送给图像区分模块,图像区分模块将图像采集数据进行区分筛选得到图像中的文字区域并将文字区域数据输送给文字识别模块,文字识别模块将文字区域数据进行识别得到文字数据并将文字数据输送给拼音生成模块和文字检索模块,拼音生成模块将文字数据生成拼音数据并输送给拼音检索模块,拼音检索模块将拼音数据文字拼音数据库内的文学理论拼音数据进行匹配得到拼音检索结果并将拼音检索结果输送给分析模块;文字检索模块将文字数据与文学文字数据库内的文字理论文件的文字数据进行匹配得到文字检索结果并将文字检索结果输送给分析模块,分析模块将得到的文字检索结果与拼音检索结果进行匹配分析得到文学理论检索结果。
优选地,所述图像区分模块区分图像中的文字区域过程为定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;判断该局部背景是否属于复杂背景;若该局部背景属于复杂背景,则确定该文字的颜色;结合该文字的颜色与定位的文字区域构建选区得到该文字的文字区域。
优选地,所述文字识别模块识别文字区域内的文字为将文字区域进行二值化处理,二值化处理后提取文字区域笔划特征,包括提取各笔划的近邻笔划及其相对位置关系特征,并将笔划特征与文字进行匹配得到识别文字。
优选地,所述拼音生成模块生成拼音为根据识别的文字与拼音进行匹配,当出现多音字时分别将多个读音和多音字前后文字拼音进行组合进行二次匹配,当符合二次匹配后的多音字拼音为正确拼音。
优选地,所述分析模块的分析过程为将将得到的文字检索结果与拼音检索结果进行匹配,当文字检索结果与拼音检索结果的重合率达到70%以上时,即为检索成功并输出检索结果。
优选地,提取文字区域笔划特征具体为先找出文字区域中各笔划图像点的最长方向,并以其为主方向,连接所述主方向上的各笔划图像点成为直线段连线,连接相邻的主方向相同的直线段连线就形成了主线段区域,从而找出该笔划特征。
优选地,所述文字检索结果与拼音检索结果的重复率包括单文字拼音匹配和全文文字拼音匹配,单文字拼音匹配为将文字检索结果中单独的文字和拼音检索结果中单独的拼音进行一一单独匹配,所述全文文字拼音匹配为将文字检索结果中全部的文字与拼音检索结果中的全部拼音进行组合匹配,当单文字拼音匹配重合率达到80%以上时,且全文文字拼音匹配重合率达到50%以上时,即为检索成功并输出检索结果。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明的一种文学理论快速检索查询系统,输入模块的图像采集单元将需要识别的文学理论进行图像采集并将图像采集数据输送给图像区分模块,图像区分模块将图像采集数据进行区分筛选得到图像中的文字区域并将文字区域数据输送给文字识别模块,文字识别模块将文字区域数据进行识别得到文字数据并将文字数据输送给拼音生成模块和文字检索模块,拼音生成模块将文字数据生成拼音数据并输送给拼音检索模块,拼音检索模块将拼音数据文字拼音数据库内的文学理论拼音数据进行匹配得到拼音检索结果并将拼音检索结果输送给分析模块;文字检索模块将文字数据与文学文字数据库内的文字理论文件的文字数据进行匹配得到文字检索结果并将文字检索结果输送给分析模块,分析模块将得到的文字检索结果与拼音检索结果进行匹配分析得到文学理论检索结果,通过识别图像中的文字并通过文字和拼音分别进行检索,并将检索得到的文字结果与拼音结果进行匹配,当拼音检索模块的拼音检索结果与文字检索模块的文字检索结果匹配率大于70%时,输出模块输出检索到的文字数据,进一步提升了检索过程的降噪效果,保证了文学理论查询结果的正确性。
附图说明
图1为本发明的一种文学理论快速检索查询系统的结构示意图。
示意图中的标号说明:
100、输入模块;200、图像区分模块;300、文字识别模块;400、拼音生成模块;500、控制模块;600、拼音检索模块;700、文字拼音数据库;800、文字检索模块;900、文学文字数据库;1000、分析模块;1100、输出模块。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
实施例1
参照附图1,本实施例的一种文学理论快速检索查询系统,包括
输入模块100,该输入模块100用于输入需要检索的文学理论内容,所述输入模块100包括图像采集单元;
图像区分模块200,该图像区分模块200与图像采集单元连接,图像区分模块200用于对图像采集单元采集的图像进行识别并筛选图像中的文字区域;
文字识别模块300,该文字识别模块300与图像区分模块200连接,文字识别模块300用于对图像区分模块200筛选后的文字区域内进行文字识别并得到文字;
拼音生成模块400,该拼音生成模块400与文字识别模块300连接,拼音生成模块400用于将文字识别模块300得到的文字生成拼音;
拼音检索模块600,该拼音检索模块600与拼音生成模块400连接,所述拼音检索模块600用于将拼音生成模块400生成的拼音进行检索;
文字拼音数据库700,该文字拼音数据库700与拼音检索模块600连接,所述文字拼音数据库700内存储有文字理论文件的拼音数据,所述文字拼音数据库700用于为拼音检索模块600的检索提供对比数据,拼音检索模块600将拼音生成模块400生成的拼音与文字拼音数据库700内的文学理论拼音数据进行匹配得到检索结果;
文字检索模块800,该文字检索模块800与文字识别模块300连接,所述文字检索模块800用于将文字识别模块300识别得到的文字进行检索;
文学文字数据库900,该文学文字数据库900与文字检索模块800连接,所述文学文字数据库900内存储有文字理论文件的文字数据,文字检索模块800将文字识别模块300识别得到的文字与文学文字数据库900内的文学理论文件的文字数据进行匹配得到检索结果。
分析模块1000,该分析模块1000与拼音检索模块600、文字检索模块800连接,所述分析模块1000用于将拼音检索模块600的拼音检索结果与文字检索模块800的文字检索结果进行匹配;
输出模块1100,该输出模块1100与分析模块1000连接,所述输出模块1100用于对分析模块1000的数据进行显示,当拼音检索模块600的拼音检索结果与文字检索模块800的文字检索结果匹配率大于70%时,输出模块1100输出检索到的文字数据,当拼音检索模块600的拼音检索结果与文字检索模块800的文字检索结果匹配率小于70%时,输出模块1100输出检索失败。
包括控制模块500,所述控制模块500为控制器,该控制器同时与文字识别模块300、拼音生成模块400、拼音检索模块600、文字检索模块800、分析模块1000连接,所述控制模块500用于控制如下过程:控制文字识别模块300将识别的文字数据输送给拼音生成模块400和文字检索模块800,控制拼音生成模块400根据控制文字识别模块300输送的文字数据生成拼音数据并输送给拼音检索模块600。
本实施例的系统通过识别图像中的文字并通过文字和拼音分别进行检索,并将检索得到的文字结果与拼音结果进行匹配,当拼音检索模块600的拼音检索结果与文字检索模块800的文字检索结果匹配率大于70%时,输出模块1100输出检索到的文字数据,进一步提升了检索过程的降噪效果,保证了文学理论查询结果的正确性。
实施例2
一种文学理论快速检索查询方法,采用上述所述的文学理论快速检索查询系统,所述方法为:输入模块100的图像采集单元将需要识别的文学理论进行图像采集并将图像采集数据输送给图像区分模块200,图像区分模块200将图像采集数据进行区分筛选得到图像中的文字区域并将文字区域数据输送给文字识别模块300,文字识别模块300将文字区域数据进行识别得到文字数据并将文字数据输送给拼音生成模块400和文字检索模块800,拼音生成模块400将文字数据生成拼音数据并输送给拼音检索模块600,拼音检索模块600将拼音数据文字拼音数据库700内的文学理论拼音数据进行匹配得到拼音检索结果并将拼音检索结果输送给分析模块1000;文字检索模块800将文字数据与文学文字数据库900内的文字理论文件的文字数据进行匹配得到文字检索结果并将文字检索结果输送给分析模块1000,分析模块1000将得到的文字检索结果与拼音检索结果进行匹配分析得到文学理论检索结果。
本实施例的所述图像区分模块200区分图像中的文字区域过程为定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;判断该局部背景是否属于复杂背景;若该局部背景属于复杂背景,则确定该文字的颜色;结合该文字的颜色与定位的文字区域构建选区得到该文字的文字区域。
本实施例的所述文字识别模块300识别文字区域内的文字为将文字区域进行二值化处理,二值化处理后提取文字区域笔划特征,包括提取各笔划的近邻笔划及其相对位置关系特征,并将笔划特征与文字进行匹配得到识别文字。
本实施例的所述拼音生成模块400生成拼音为根据识别的文字与拼音进行匹配,当出现多音字时分别将多个读音和多音字前后文字拼音进行组合进行二次匹配,当符合二次匹配后的多音字拼音为正确拼音。
本实施例的所述分析模块1000的分析过程为将得到的文字检索结果与拼音检索结果进行匹配,当文字检索结果与拼音检索结果的重合率达到70%以上时,即为检索成功并输出检索结果。
本实施例的提取文字区域笔划特征具体为先找出文字区域中各笔划图像点的最长方向,并以其为主方向,连接所述主方向上的各笔划图像点成为直线段连线,连接相邻的主方向相同的直线段连线就形成了主线段区域,从而找出该笔划特征。还包括部件匹配,是以某待识别笔划为中心笔划,与部件特征库中的部件逐一匹配;匹配时是将待识别的中心笔划视做与部件特征库部件的首笔划相重叠,然后比较二者的近邻笔划走向特征和相对位置关系特征,找出它们的对应匹配笔划;然后再分别以这些匹配的笔划为中心笔划,继续比较它们的近邻笔划的走向特征和相对位置关系特征,进一步找出其它的对应匹配笔划;如此不断比较下去,直到全部比较完部件特征库部件的所有笔划并找出各自的对应匹配笔划关系。
本实施例的所述文字检索结果与拼音检索结果的重复率包括单文字拼音匹配和全文文字拼音匹配,单文字拼音匹配为将文字检索结果中单独的文字和拼音检索结果中单独的拼音进行一一单独匹配,所述全文文字拼音匹配为将文字检索结果中全部的文字与拼音检索结果中的全部拼音进行组合匹配,当单文字拼音匹配重合率达到80%以上时,且全文文字拼音匹配重合率达到50%以上时,即为检索成功并输出检索结果。
以上所述实施例仅表达了本发明的某种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,本发明专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种文学理论快速检索查询系统,其特征在于:包括
输入模块(100),该输入模块(100)用于输入需要检索的文学理论内容,所述输入模块(100)包括图像采集单元;
图像区分模块(200),该图像区分模块(200)与图像采集单元连接,图像区分模块(200)用于对图像采集单元采集的图像进行识别并筛选图像中的文字区域;
文字识别模块(300),该文字识别模块(300)与图像区分模块(200)连接,文字识别模块(300)用于对图像区分模块(200)筛选后的文字区域内进行文字识别并得到文字;
拼音生成模块(400),该拼音生成模块(400)与文字识别模块(300)连接,拼音生成模块(400)用于将文字识别模块(300)得到的文字生成拼音;
拼音检索模块(600),该拼音检索模块(600)与拼音生成模块(400)连接,所述拼音检索模块(600)用于将拼音生成模块(400)生成的拼音进行检索;
文字拼音数据库(700),该文字拼音数据库(700)与拼音检索模块(600)连接,所述文字拼音数据库(700)内存储有文字理论文件的拼音数据,所述文字拼音数据库(700)用于为拼音检索模块(600)的检索提供对比数据,拼音检索模块(600)将拼音生成模块(400)生成的拼音与文字拼音数据库(700)内的文学理论拼音数据进行匹配得到检索结果;
文字检索模块(800),该文字检索模块(800)与文字识别模块(300)连接,所述文字检索模块(800)用于将文字识别模块(300)识别得到的文字进行检索;
文学文字数据库(900),该文学文字数据库(900)与文字检索模块(800)连接,所述文学文字数据库(900)内存储有文学理论文件的文字数据,文字检索模块(800)将文字识别模块(300)识别得到的文字与文学文字数据库(900)内的文学理论文件的文字数据进行匹配得到检索结果。
分析模块(1000),该分析模块(1000)与拼音检索模块(600)、文字检索模块(800)连接,所述分析模块(1000)用于将拼音检索模块(600)的拼音检索结果与文字检索模块(800)的文字检索结果进行匹配;
输出模块(1100),该输出模块(1100)与分析模块(1000)连接,所述输出模块(1100)用于对分析模块(1000)的数据进行显示,当拼音检索模块(600)的拼音检索结果与文字检索模块(800)的文字检索结果匹配率大于70%时,输出模块(1100)输出检索到的文字数据,当拼音检索模块(600)的拼音检索结果与文字检索模块(800)的文字检索结果匹配率小于70%时,输出模块(1100)输出检索失败。
2.根据权利要求1所述的一种文学理论快速检索查询系统,其特征在于:还包括控制模块(500),所述控制模块(500)为控制器,该控制器同时与文字识别模块(300)、拼音生成模块(400)、拼音检索模块(600)、文字检索模块(800)、分析模块(1000)连接,所述控制模块(500)用于控制如下过程:控制文字识别模块(300)将识别的文字数据输送给拼音生成模块(400)和文字检索模块(800),控制拼音生成模块(400)根据控制文字识别模块(300)输送的文字数据生成拼音数据并输送给拼音检索模块(600)。
3.一种文学理论快速检索查询方法,其特征在于,采用上述权利要求2所述的文学理论快速检索查询系统,所述方法为:输入模块(100)的图像采集单元将需要识别的文学理论进行图像采集并将图像采集数据输送给图像区分模块(200),图像区分模块(200)将图像采集数据进行区分筛选得到图像中的文字区域并将文字区域数据输送给文字识别模块(300),文字识别模块(300)将文字区域数据进行识别得到文字数据并将文字数据输送给拼音生成模块(400)和文字检索模块(800),拼音生成模块(400)将文字数据生成拼音数据并输送给拼音检索模块(600),拼音检索模块(600)将拼音数据文字拼音数据库(700)内的文学理论拼音数据进行匹配得到拼音检索结果并将拼音检索结果输送给分析模块(1000);文字检索模块(800)将文字数据与文学文字数据库(900)内的文字理论文件的文字数据进行匹配得到文字检索结果并将文字检索结果输送给分析模块(1000),分析模块(1000)将得到的文字检索结果与拼音检索结果进行匹配分析得到文学理论检索结果。
4.根据权利要求3所述的一种文学理论快速检索查询方法,其特征在于:所述图像区分模块(200)区分图像中的文字区域过程为定位该图像的文字区域,该文字区域中文字以外的部分为局部背景;判断该局部背景是否属于复杂背景;若该局部背景属于复杂背景,则确定该文字的颜色;结合该文字的颜色与定位的文字区域构建选区得到该文字的文字区域。
5.根据权利要求3所述的一种文学理论快速检索查询方法,其特征在于:所述文字识别模块(300)识别文字区域内的文字为将文字区域进行二值化处理,二值化处理后提取文字区域笔划特征,包括提取各笔划的近邻笔划及其相对位置关系特征,并将笔划特征与文字进行匹配得到识别文字。
6.根据权利要求3所述的一种文学理论快速检索查询方法,其特征在于:所述拼音生成模块(400)生成拼音为根据识别的文字与拼音进行匹配,当出现多音字时分别将多个读音和多音字前后文字拼音进行组合进行二次匹配,当符合二次匹配后的多音字拼音为正确拼音。
7.根据权利要求3所述的一种文学理论快速检索查询方法,其特征在于:所述分析模块(1000)的分析过程为将得到的文字检索结果与拼音检索结果进行匹配,当文字检索结果与拼音检索结果的重合率达到70%以上时,即为检索成功并输出检索结果。
8.根据权利要求5所述的一种文学理论快速检索查询方法,其特征在于:提取文字区域笔划特征具体为先找出文字区域中各笔划图像点的最长方向,并以其为主方向,连接所述主方向上的各笔划图像点成为直线段连线,连接相邻的主方向相同的直线段连线就形成了主线段区域,从而找出该笔划特征。
9.根据权利要求7所述的一种文学理论快速检索查询方法,其特征在于:所述文字检索结果与拼音检索结果的重复率包括单文字拼音匹配和全文文字拼音匹配,单文字拼音匹配为将文字检索结果中单独的文字和拼音检索结果中单独的拼音进行一一单独匹配,所述全文文字拼音匹配为将文字检索结果中全部的文字与拼音检索结果中的全部拼音进行组合匹配,当单文字拼音匹配重合率达到80%以上时,且全文文字拼音匹配重合率达到50%以上时,即为检索成功并输出检索结果。
CN201911328106.3A 2019-12-20 2019-12-20 一种文学理论快速检索查询系统及方法 Pending CN111177317A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911328106.3A CN111177317A (zh) 2019-12-20 2019-12-20 一种文学理论快速检索查询系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911328106.3A CN111177317A (zh) 2019-12-20 2019-12-20 一种文学理论快速检索查询系统及方法

Publications (1)

Publication Number Publication Date
CN111177317A true CN111177317A (zh) 2020-05-19

Family

ID=70654008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911328106.3A Pending CN111177317A (zh) 2019-12-20 2019-12-20 一种文学理论快速检索查询系统及方法

Country Status (1)

Country Link
CN (1) CN111177317A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282766A (zh) * 2021-05-27 2021-08-20 深圳市聚赢档案管理有限公司 一种公证档案原文检索系统
CN116226297A (zh) * 2023-05-05 2023-06-06 深圳市唯特视科技有限公司 数据模型的可视化搜索方法、系统、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020052863A1 (en) * 2000-10-31 2002-05-02 Tonfu Corporation Law retrieval system, law retrieval apparatus and law retrieval program
CN1547135A (zh) * 2003-10-29 2004-11-17 远 高 利用汉语拼音声调检索中文姓名的方法
CN101572086A (zh) * 2008-04-28 2009-11-04 北京上行逶式信息公司 一种汉字音素信号和拼音的检索装置
CN103365925A (zh) * 2012-04-09 2013-10-23 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN105260751A (zh) * 2015-11-02 2016-01-20 冯清亮 一种文字识别方法及其系统
CN105353895A (zh) * 2015-12-17 2016-02-24 北京奇点机智信息技术有限公司 一种进行文字输入的方法和装置
CN107203508A (zh) * 2016-03-17 2017-09-26 富士施乐实业发展(中国)有限公司 盲文文件生成方法及系统
CN107506454A (zh) * 2017-08-29 2017-12-22 央视国际网络无锡有限公司 一种计算机文本及多媒体信息安全自动预警系统
WO2018040356A1 (zh) * 2016-09-05 2018-03-08 惠州市德赛西威汽车电子股份有限公司 一种连续字符与模糊字符的检索系统及方法
CN108416055A (zh) * 2018-03-20 2018-08-17 北京三快在线科技有限公司 建立拼音数据库的方法、装置、电子设备及存储介质
CN110019919A (zh) * 2017-09-30 2019-07-16 腾讯科技(深圳)有限公司 一种押韵歌词的生成方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020052863A1 (en) * 2000-10-31 2002-05-02 Tonfu Corporation Law retrieval system, law retrieval apparatus and law retrieval program
CN1547135A (zh) * 2003-10-29 2004-11-17 远 高 利用汉语拼音声调检索中文姓名的方法
CN101572086A (zh) * 2008-04-28 2009-11-04 北京上行逶式信息公司 一种汉字音素信号和拼音的检索装置
CN103365925A (zh) * 2012-04-09 2013-10-23 高德软件有限公司 获取多音字拼音、基于拼音检索的方法及其相应装置
CN105260751A (zh) * 2015-11-02 2016-01-20 冯清亮 一种文字识别方法及其系统
CN105353895A (zh) * 2015-12-17 2016-02-24 北京奇点机智信息技术有限公司 一种进行文字输入的方法和装置
CN107203508A (zh) * 2016-03-17 2017-09-26 富士施乐实业发展(中国)有限公司 盲文文件生成方法及系统
WO2018040356A1 (zh) * 2016-09-05 2018-03-08 惠州市德赛西威汽车电子股份有限公司 一种连续字符与模糊字符的检索系统及方法
CN107506454A (zh) * 2017-08-29 2017-12-22 央视国际网络无锡有限公司 一种计算机文本及多媒体信息安全自动预警系统
CN110019919A (zh) * 2017-09-30 2019-07-16 腾讯科技(深圳)有限公司 一种押韵歌词的生成方法和装置
CN108416055A (zh) * 2018-03-20 2018-08-17 北京三快在线科技有限公司 建立拼音数据库的方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘风华;陈燕红;郑卫斌;: "拼音检索方法在Web系统中的研究与实现" *
阎红灿;张淑芬;谷建涛;阎少宏;: "基于音码相似度的拼音模糊查询算法" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282766A (zh) * 2021-05-27 2021-08-20 深圳市聚赢档案管理有限公司 一种公证档案原文检索系统
CN116226297A (zh) * 2023-05-05 2023-06-06 深圳市唯特视科技有限公司 数据模型的可视化搜索方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108170859B (zh) 语音查询的方法、装置、存储介质及终端设备
US11222044B2 (en) Natural language image search
CN105843875A (zh) 一种面向智能机器人的问答数据处理方法及装置
CN105760495B (zh) 一种基于知识图谱针对bug问题进行探索性搜索方法
CN104537341B (zh) 人脸图片信息获取方法和装置
CN104392006B (zh) 一种事件查询处理方法及装置
CN105869640A (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN105139237A (zh) 信息推送的方法和装置
US20140328540A1 (en) Sketch Segmentation
WO2014179634A2 (en) Hand-drawn sketch recognition
US11854237B2 (en) Human body identification method, electronic device and storage medium
US20200320348A1 (en) System and method for fashion attributes extraction
CN111400607A (zh) 搜索内容输出方法、装置、计算机设备及可读存储介质
CN106778703A (zh) 电子阅卷的方法和装置
KR101896404B1 (ko) 컴퓨터 비전을 이용한 상품 추천 시스템
US9906588B2 (en) Server and method for extracting content for commodity
CN111177317A (zh) 一种文学理论快速检索查询系统及方法
CN105302849A (zh) 注释显示辅助设备及辅助注释显示的方法
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN103019407A (zh) 输入法应用方法、自动问答处理方法及电子设备、服务器
US20140032520A1 (en) Image retrieval method and system for community website page
CN101082936A (zh) 数据查询系统及方法
CN104123319B (zh) 对具有地图需求的搜索项进行解析的方法和装置
CN108268883B (zh) 基于开放数据的移动端信息模板自构建系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231027

AD01 Patent right deemed abandoned