CN111104480A - 一种创新型ai智能文本处理系统 - Google Patents

一种创新型ai智能文本处理系统 Download PDF

Info

Publication number
CN111104480A
CN111104480A CN201911219562.4A CN201911219562A CN111104480A CN 111104480 A CN111104480 A CN 111104480A CN 201911219562 A CN201911219562 A CN 201911219562A CN 111104480 A CN111104480 A CN 111104480A
Authority
CN
China
Prior art keywords
module
processing system
text
word
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911219562.4A
Other languages
English (en)
Inventor
吕振海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Xinrui Century Technology Co Ltd
Original Assignee
Guangdong Xinrui Century Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Xinrui Century Technology Co Ltd filed Critical Guangdong Xinrui Century Technology Co Ltd
Priority to CN201911219562.4A priority Critical patent/CN111104480A/zh
Publication of CN111104480A publication Critical patent/CN111104480A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种创新型AI智能文本处理系统,包括AI智能分析处理系统和网络数据库,所述AI智能分析处理系统的输出端与网络数据库的输入端连接,所述AI智能分析处理系统分别与常用输入词处理单元、识图处理单元和文本查错单元实现双向连接,网络数据库的输出端分别与识图处理单元和文本查错单元的输入端连接,本发明涉及AI智能技术领域。该创新型AI智能文本处理系统,在现有的文本词语识别纠错技术的基础上,利用人工智能技术对可能出现的错词结合前后语句进行分析,利用通顺率来评判出正确率最大的词语,相对于现有技术仅能识别词语是否错误来说,该系统更智能化,可更好的识别出文本存在的问题,并给出合适的推荐。

Description

一种创新型AI智能文本处理系统
技术领域
本发明涉及AI智能技术领域,具体为一种创新型AI智能文本处理系统。
背景技术
人工智能英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想,未来人工智能带来的科技产品,将会是人类智慧的“容器”。人工智能可以对人的意识、思维的信息过程的模拟,人工智能不是人的智能,但能像人那样思考、也可能超过人的智能。
现有的文本处理系统一般只能进行简单的文字识别,对其中明显存在的错词和重字等进行标记,方便使用者进行改正,但大部分标记出的词语并不存在错误,进而会影响使用者的判断,且对于一些专业性文件来说,其中会出现很多专业名词,普通的识别系统会给出更多的错误提示,识别处理不够智能。
发明内容
针对现有技术的不足,本发明提供了一种创新型AI智能文本处理系统,解决了现有的文本处理系统大部分标记出的词语并不存在错误,进而会影响使用者的判断,且对于一些专业性文件来说,其中会出现很多专业名词,普通的识别系统会给出更多的错误提示,识别处理不够智能的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种创新型AI智能文本处理系统,包括AI智能分析处理系统和网络数据库,所述AI智能分析处理系统的输出端与网络数据库的输入端连接,所述AI智能分析处理系统分别与常用输入词处理单元、识图处理单元和文本查错单元实现双向连接,所述网络数据库的输出端分别与识图处理单元和文本查错单元的输入端连接,所述AI智能分析处理系统的输出端与批量处理单元的输入端连接,所述批量处理单元的输出端分别与识图处理单元和文本查错单元的输入端连接。
优选的,所述文本录入模块和网络数据库的输出端均与词语查错模块的输入端连接,所述词语查错模块的输出端与可疑错词标记模块的输入端连接,所述可疑错词标记模块和网络数据库的输出端均与相关正确词列举模块的输入端连接。
优选的,所述相关正确词列举模块的输出端与前后语句代入模块的输入端连接,所述前后语句代入模块的输出端与AI智能分析处理系统的输入端连接,所述AI智能分析处理系统的输出端与通顺率排序模块的输入端连接,所述通顺率排序模块的输出端与正确词推荐模块的输入端连接。
优选的,所述常用输入词处理单元包括人工搜索修改模块、账号登录模块、常用词云储存空间、修改记录模块和常用词记录模块。
优选的,所述账号登录模块的输出端分别与人工搜索修改模块和常用词云储存空间的输入端连接,所述人工搜索修改模块、修改记录模块和常用词记录模块的输出端均与常用词云储存空间的输入端连接。
优选的,所述识图处理单元包括图片文字识别提取模块、文本符号标记模块、语病文字标记模块、相似符号文字替换模块和替换文字推荐模块,所述图片文字识别提取模块的输出端与文本符号标记模块的输入端连接。
优选的,所述文本符号标记模块的输出端与AI智能分析处理系统的输入端连接,所述AI智能分析处理系统的输出端与语病文字标记模块的输入端连接,所述语病文字标记模块的输出端与相似符号文字替换模块的输入端连接,所述相似符号文字替换模块的输出端与替换文字推荐模块的输入端连接。
有益效果
本发明提供了一种创新型AI智能文本处理系统。与现有技术相比具备以下有益效果:
(1)、该创新型AI智能文本处理系统,通过使文本录入模块和网络数据库的输出端均与词语查错模块的输入端连接,词语查错模块的输出端与可疑错词标记模块的输入端连接,可疑错词标记模块和网络数据库的输出端均与相关正确词列举模块的输入端连接,相关正确词列举模块的输出端与前后语句代入模块的输入端连接,前后语句代入模块的输出端与AI智能分析处理系统的输入端连接,AI智能分析处理系统的输出端与通顺率排序模块的输入端连接,通顺率排序模块的输出端与正确词推荐模块的输入端连接,在现有的文本词语识别纠错技术的基础上,利用人工智能技术对可能出现的错词结合前后语句进行分析,利用通顺率来评判出正确率最大的词语,相对于现有技术仅能识别词语是否错误来说,该系统更智能化,可更好的识别出文本存在的问题,并给出合适的推荐。
(2)、该创新型AI智能文本处理系统,通过使账号登录模块的输出端分别与人工搜索修改模块和常用词云储存空间的输入端连接,人工搜索修改模块、修改记录模块和常用词记录模块的输出端均与常用词云储存空间的输入端连接,在现有输入法常用词记录功能的基础上,增加了修改记录的功能,通过经常性的词语修改并记录,可纠正一些被误保存的常用词,若此方式不够快速直接,还可通过人工搜索修改模块在常用词云储存空间进行针对性的搜索修改,为文本识别处理提供更好的帮助,适合一些专业性较强的工作文件处理。
(3)、该创新型AI智能文本处理系统,通过使图片文字识别提取模块的输出端与文本符号标记模块的输入端连接,文本符号标记模块的输出端与AI智能分析处理系统的输入端连接,AI智能分析处理系统的输出端与语病文字标记模块的输入端连接,语病文字标记模块的输出端与相似符号文字替换模块的输入端连接,相似符号文字替换模块的输出端与替换文字推荐模块的输入端连接,利用人工智能技术对图片文字识别提取模块提取出来的文本进行分析,对于其中识别错误的符号和文字,结合语句可大致识别出,进而可作出相应的正确文字推荐,使使用者可更好的发现其中的错误,适合大篇幅图片文本的识别纠错。
附图说明
图1为本发明的系统原理框图;
图2为本发明文本查错单元的原理框图;
图3为本发明常用输入词处理单元的原理框图;
图4为本发明识图处理单元的原理框图。
图中:1-AI智能分析处理系统、2-网络数据库、3-常用输入词处理单元、31-人工搜索修改模块、32-账号登录模块、33-常用词云储存空间、34-修改记录模块、35-常用词记录模块、4-识图处理单元、41-图片文字识别提取模块、42-文本符号标记模块、43-语病文字标记模块、44-相似符号文字替换模块、45-替换文字推荐模块、5-文本查错单元、51-文本录入模块、52-词语查错模块、53-可疑错词标记模块、54-相关正确词列举模块、55-前后语句代入模块、56-通顺率排序模块、57-正确词推荐模块、6-批量处理单元。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,本发明提供一种技术方案:一种创新型AI智能文本处理系统,包括AI智能分析处理系统1和网络数据库2,AI智能分析处理系统1的输出端与网络数据库2的输入端连接,AI智能分析处理系统1分别与常用输入词处理单元3、识图处理单元4和文本查错单元5实现双向连接,常用输入词处理单元3包括人工搜索修改模块31、账号登录模块32、常用词云储存空间33、修改记录模块34和常用词记录模块35,账号登录模块32的输出端分别与人工搜索修改模块31和常用词云储存空间33的输入端连接,人工搜索修改模块31、修改记录模块34和常用词记录模块35的输出端均与常用词云储存空间33的输入端连接,在现有输入法常用词记录功能的基础上,增加了修改记录的功能,通过经常性的词语修改并记录,可纠正一些被误保存的常用词,若此方式不够快速直接,还可通过人工搜索修改模块31在常用词云储存空间33进行针对性的搜索修改,为文本识别处理提供更好的帮助,适合一些专业性较强的工作文件处理,识图处理单元4包括图片文字识别提取模块41、文本符号标记模块42、语病文字标记模块43、相似符号文字替换模块44和替换文字推荐模块45,图片文字识别提取模块41的输出端与文本符号标记模块42的输入端连接,文本符号标记模块42的输出端与AI智能分析处理系统1的输入端连接,AI智能分析处理系统1的输出端与语病文字标记模块43的输入端连接,语病文字标记模块43的输出端与相似符号文字替换模块44的输入端连接,相似符号文字替换模块44的输出端与替换文字推荐模块45的输入端连接,利用人工智能技术对图片文字识别提取模块41提取出来的文本进行分析,对于其中识别错误的符号和文字,结合语句可大致识别出,进而可作出相应的正确文字推荐,使使用者可更好的发现其中的错误,适合大篇幅图片文本的识别纠错,文本录入模块51和网络数据库2的输出端均与词语查错模块52的输入端连接,词语查错模块52的输出端与可疑错词标记模块53的输入端连接,可疑错词标记模块53和网络数据库2的输出端均与相关正确词列举模块54的输入端连接,相关正确词列举模块54的输出端与前后语句代入模块55的输入端连接,前后语句代入模块55的输出端与AI智能分析处理系统1的输入端连接,AI智能分析处理系统1的输出端与通顺率排序模块56的输入端连接,通顺率排序模块56的输出端与正确词推荐模块57的输入端连接,在现有的文本词语识别纠错技术的基础上,利用人工智能技术对可能出现的错词结合前后语句进行分析,利用通顺率来评判出正确率最大的词语,相对于现有技术仅能识别词语是否错误来说,该系统更智能化,可更好的识别出文本存在的问题,并给出合适的推荐,网络数据库2的输出端分别与识图处理单元4和文本查错单元5的输入端连接,AI智能分析处理系统1的输出端与批量处理单元6的输入端连接,批量处理单元6的输出端分别与识图处理单元4和文本查错单元5的输入端连接。
同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。
进行文本查错功能时,将需要查错的文本从文本录入模块51录入,然后词语查错模块52结合网络数据库2储存的词汇进行查错,识别出所有可能存在问题的词语,并利用可疑错词标记模块53进行标记,对于其中存在有同样读音或字体类似的完整词语的错词,利用相关正确词列举模块54将此类完整词语列举出来,再将此类词语分别代入原错词的语句中,利用AI智能分析处理系统1进行智能识别分析,判断出不同词语代入后的通顺率,并利用通顺率排序模块56结合通顺率对词语进行排序,最后通过正确词推荐模块57将其中通顺率最大的两个词语标记出来,在一侧备注栏备注,供使用者查看。
当使用图片转文本功能时,图片文字识别提取模块41先将图片内的文字识别并提取出来形成文本,文本符号标记模块42对其中的所有符号进行标记,然后由AI智能分析处理系统1进行智能分析,判断出其中存在的不合理文字和符号,并给出相似的正确率更高的文字替换此类不合理文字和符号,并通过替换文字推荐模块45进行推荐。
在文本处理过程中,若有大批量文本需要处理,可将文件全部录入批量处理单元6,然后批量处理单元6将文件依次转入对应的处理单元内;在日常文本处理过程中,使用者可通过账号登录模块32登录个人账号,获得云储存空间33,常用词记录模块35对一些出现频率较高的词语进行记录,并储存在常用词云储存空间33内,对于人工多次修改的词语,同样通过修改记录模块34记录到常用词云储存空间33内,并将被修改的常用词剔除,使用者还可直接进入云储存空间33,利用人工搜索修改模块31对不想要出现的词语进行搜索和修改,云储存空间33内的常用词可提供给文本查错单元5和识图处理单元4进行优先推荐。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种创新型AI智能文本处理系统,包括AI智能分析处理系统(1)和网络数据库(2),所述AI智能分析处理系统(1)的输出端与网络数据库(2)的输入端连接,其特征在于:所述AI智能分析处理系统(1)分别与常用输入词处理单元(3)、识图处理单元(4)和文本查错单元(5)实现双向连接,所述网络数据库(2)的输出端分别与识图处理单元(4)和文本查错单元(5)的输入端连接,所述AI智能分析处理系统(1)的输出端与批量处理单元(6)的输入端连接,所述批量处理单元(6)的输出端分别与识图处理单元(4)和文本查错单元(5)的输入端连接。
2.根据权利要求1所述的一种创新型AI智能文本处理系统,其特征在于:所述文本查错单元(5)包括文本录入模块(51)、词语查错模块(52)、可疑错词标记模块(53)、相关正确词列举模块(54)、前后语句代入模块(55)、通顺率排序模块(56)和正确词推荐模块(57)。
3.根据权利要求2所述的一种创新型AI智能文本处理系统,其特征在于:所述文本录入模块(51)和网络数据库(2)的输出端均与词语查错模块(52)的输入端连接,所述词语查错模块(52)的输出端与可疑错词标记模块(53)的输入端连接,所述可疑错词标记模块(53)和网络数据库(2)的输出端均与相关正确词列举模块(54)的输入端连接。
4.根据权利要求2所述的一种创新型AI智能文本处理系统,其特征在于:所述相关正确词列举模块(54)的输出端与前后语句代入模块(55)的输入端连接,所述前后语句代入模块(55)的输出端与AI智能分析处理系统(1)的输入端连接,所述AI智能分析处理系统(1)的输出端与通顺率排序模块(56)的输入端连接,所述通顺率排序模块(56)的输出端与正确词推荐模块(57)的输入端连接。
5.根据权利要求1所述的一种创新型AI智能文本处理系统,其特征在于:所述常用输入词处理单元(3)包括人工搜索修改模块(31)、账号登录模块(32)、常用词云储存空间(33)、修改记录模块(34)和常用词记录模块(35)。
6.根据权利要求5所述的一种创新型AI智能文本处理系统,其特征在于:所述账号登录模块(32)的输出端分别与人工搜索修改模块(31)和常用词云储存空间(33)的输入端连接,所述人工搜索修改模块(31)、修改记录模块(34)和常用词记录模块(35)的输出端均与常用词云储存空间(33)的输入端连接。
7.根据权利要求1所述的一种创新型AI智能文本处理系统,其特征在于:所述识图处理单元(4)包括图片文字识别提取模块(41)、文本符号标记模块(42)、语病文字标记模块(43)、相似符号文字替换模块(44)和替换文字推荐模块(45),所述图片文字识别提取模块(41)的输出端与文本符号标记模块(42)的输入端连接。
8.根据权利要求7所述的一种创新型AI智能文本处理系统,其特征在于:所述文本符号标记模块(42)的输出端与AI智能分析处理系统(1)的输入端连接,所述AI智能分析处理系统(1)的输出端与语病文字标记模块(43)的输入端连接,所述语病文字标记模块(43)的输出端与相似符号文字替换模块(44)的输入端连接,所述相似符号文字替换模块(44)的输出端与替换文字推荐模块(45)的输入端连接。
CN201911219562.4A 2019-11-30 2019-11-30 一种创新型ai智能文本处理系统 Pending CN111104480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911219562.4A CN111104480A (zh) 2019-11-30 2019-11-30 一种创新型ai智能文本处理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911219562.4A CN111104480A (zh) 2019-11-30 2019-11-30 一种创新型ai智能文本处理系统

Publications (1)

Publication Number Publication Date
CN111104480A true CN111104480A (zh) 2020-05-05

Family

ID=70420795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911219562.4A Pending CN111104480A (zh) 2019-11-30 2019-11-30 一种创新型ai智能文本处理系统

Country Status (1)

Country Link
CN (1) CN111104480A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360742A (zh) * 2021-05-19 2021-09-07 维沃移动通信有限公司 推荐信息确定方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
US20190205384A1 (en) * 2017-12-28 2019-07-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device based on artificial intelligence
CN109977245A (zh) * 2019-03-11 2019-07-05 河南发明哥知识产权代理有限公司 一种基于智能图文识别的数据收集系统
CN110162420A (zh) * 2019-04-26 2019-08-23 平安科技(深圳)有限公司 数据辅助定位方法、装置、计算机设备及存储介质
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
US20190205384A1 (en) * 2017-12-28 2019-07-04 Beijing Baidu Netcom Science And Technology Co., Ltd. Search method and device based on artificial intelligence
CN109977245A (zh) * 2019-03-11 2019-07-05 河南发明哥知识产权代理有限公司 一种基于智能图文识别的数据收集系统
CN110162420A (zh) * 2019-04-26 2019-08-23 平安科技(深圳)有限公司 数据辅助定位方法、装置、计算机设备及存储介质
CN110188351A (zh) * 2019-05-23 2019-08-30 北京神州泰岳软件股份有限公司 语句通顺度及句法评分模型的训练方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360742A (zh) * 2021-05-19 2021-09-07 维沃移动通信有限公司 推荐信息确定方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107122416B (zh) 一种中文事件抽取方法
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN111914558A (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN112270196A (zh) 实体关系的识别方法、装置及电子设备
CN108052504B (zh) 数学主观题解答结果的结构分析方法及系统
CN109635288A (zh) 一种基于深度神经网络的简历抽取方法
CN112035675A (zh) 医疗文本标注方法、装置、设备及存储介质
CN113961685A (zh) 信息抽取方法及装置
CN110110334B (zh) 一种基于自然语言处理的远程会诊记录文本纠错方法
CN109299470B (zh) 文本公告中触发词的抽取方法及系统
CN113626573B (zh) 一种销售会话异议及应对提取方法及系统
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
CN108536673B (zh) 新闻事件抽取方法及装置
CN111369980A (zh) 语音检测方法、装置、电子设备及存储介质
CN115034218A (zh) 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法
CN114239588A (zh) 文章处理方法、装置、电子设备及介质
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
Jui et al. A machine learning-based segmentation approach for measuring similarity between sign languages
CN116127015A (zh) 基于人工智能自适应的nlp大模型分析系统
WO2020111827A1 (ko) 프로필 자동생성서버 및 방법
CN115033659A (zh) 基于深度学习的子句级自动摘要模型系统及摘要生成方法
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN111104480A (zh) 一种创新型ai智能文本处理系统
CN112579666A (zh) 智能问答系统和方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200505

RJ01 Rejection of invention patent application after publication