CN111274810A - 一种基于自然语言的语言储存系统 - Google Patents

一种基于自然语言的语言储存系统 Download PDF

Info

Publication number
CN111274810A
CN111274810A CN202010169130.3A CN202010169130A CN111274810A CN 111274810 A CN111274810 A CN 111274810A CN 202010169130 A CN202010169130 A CN 202010169130A CN 111274810 A CN111274810 A CN 111274810A
Authority
CN
China
Prior art keywords
module
natural language
backup
words
transmission
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010169130.3A
Other languages
English (en)
Inventor
赵万马
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Chuanglian Smart Soft Information Technology Co Ltd
Original Assignee
Nanjing Chuanglian Smart Soft Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Chuanglian Smart Soft Information Technology Co Ltd filed Critical Nanjing Chuanglian Smart Soft Information Technology Co Ltd
Priority to CN202010169130.3A priority Critical patent/CN111274810A/zh
Publication of CN111274810A publication Critical patent/CN111274810A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于自然语言的语言储存系统,包括主板、处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块,所述处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、备份模块、下载模块和备份模块均安装在主板表面,且处理模块与收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块依次相连,其中主板模块与WIFI相连,首先将系统进行了合理的任务分配,并且通过主板与网络相连,提取网络中的数据库,进行一个初始的数据接收,接着通过收录模块对于新型的自然语言进行输入,而通过词典分词法、切分标记的分词方法和专家分词方法进行解析,保证了自然语言翻译的稳定与合理性。

Description

一种基于自然语言的语言储存系统
技术领域
本发明涉及自然语言技术领域,具体为一种基于自然语言的语言储存系统。
背景技术
自然语言通常是指一种自然地随文化演化的语言,例如,汉语、英语、日语为自然语言的例子,这一种用法可见于自然语言处理一词中,自然语言是人类交流和思维的主要工具, 自然语言是人类智慧的结晶,自然语言处理是人工智能中最为困难的问题之一,而对自然语言处理的研究也是充满魅力和挑战的,也是各国人表达的方法其中之一;
但是目前市场上的自然语言的语言储存系统自身分类不齐全,造成系统运行速度慢,出现存储不及时,备份不齐全,对于自然语言的解析不明确,造成语义错误,并且不能根据自身的语义进行词语的正反义进行判断的问题。
发明内容
本发明提供一种基于自然语言的语言储存系统,可以有效解决上述背景技术中提出目前市场上的自然语言的语言储存系统自身分类不齐全,造成系统运行速度慢,出现存储不及时,备份不齐全,对于自然语言的解析不明确,造成语义错误,并且不能根据自身的语义进行词语的正反义进行判断的问题。
为实现上述目的,本发明提供如下技术方案:一种基于自然语言的语言储存系统,包括主板、处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块;
所述处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、备份模块、下载模块和备份模块均安装在主板表面,且处理模块与收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块依次相连;
其中主板模块与WIFI相连。
根据上述技术方案,所述处理模块为CPU处理器,对于数据进行数字量的转换,将所得自然语言进行数字量的转换,并且进行数据传输,为各个模块中的传输与解析介质。
根据上述技术方案,所述收录模块为USB接口、麦克风和触摸屏;
所述USB接口外接的移动存储设备相连,从而将数据进行移动传输;
所述麦克风将自然语言通过语音方式进行正常的传输预定导入,从而实现自然语言的音频接收与转换;
所述触摸屏为手写与拼音输入,并与主板控制相连,与网络信号进行网络数据库的载入。
根据上述技术方案,所述比较模块对于处理模块的传输信息进行处理,对于主板与WIFI相连,从而对数据库的资料进行对比,比较自然语言的近义、反义和谐音词进收录,并且对于自然语言的语句进行分段解析:
采用词典分词法、切分标记的分词方法和专家分词方法进行解析。
根据上述技术方案,所述词典分词法:通过构造一个机内词典并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时即把它作为被选词记录下来;
所述切分标记的分词方法:将能够断开词和词组、表示汉字之间关系的汉字集合组成词典,即切分标记词典,包括标点符号、表示汉字之间联系关系的汉字,具体切分方法是用切分标记先将文本分割成词组或短语,再将它们按一定的分解模式分割成单词和专用词;
所述专家分词方法:将自动分词看作知识推理的过程,力求从结构和功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识和部分语义知识,把知识的标识、知识库的逻辑结构与知识库的维护系统设计放在片位,对于常识性知识采用语义网络表示。
根据上述技术方案,所述加密模块对于存储模块和备份模块进行加密,设置三级密码,一级密码用于管理员,二级密码用于企业平台,三级密码用于游客进行修改。
根据上述技术方案,所述上传模块将自然语言的分段解析与词语上传到存储模块和备份模块,所述上传模块存储到存储模块中为实时传输,所述上传模块存储到备份模块中为定时传输,在处理模块休息中进行传输,并进行分段传输,保证传输中的稳定性。
根据上述技术方案,所述存储模块为可拆卸式固态硬盘,便于数据的快速传输与接收,所述下载模块为下载器,用于主板与外界的连接,从而便于数据的下载、中断、解压和传输。
根据上述技术方案,所述备份模块为备份存储硬盘和云备份,通过上传模块进行备份存储,并且上传模块连接主板,将自然语言进行传输和备份。
根据上述技术方案,所述下载模块采用24V电源,为外接设备,并且下载采用USB3.0接口进行数据传输。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,首先将系统进行了合理的任务分配,并且通过主板与网络相连,提取网络中的数据库,进行一个初始的数据接收,接着通过收录模块对于新型的自然语言进行输入,而通过词典分词法、切分标记的分词方法和专家分词方法进行解析,保证了自然语言翻译的稳定与合理性,并通过加密模块对于存储模块和备份模块进行加密,保证自然语言自身的安全性,上传模块将自然语言的分段解析与词语上传到存储模块和备份模块,上传模块存储到存储模块中为实时传输,上传模块存储到备份模块中为定时传输,在处理模块休息中进行传输,并进行分段传输,保证传输中的稳定性,且备份模块为备份存储硬盘和云备份,通过上传模块进行备份存储,并且上传模块连接主板,将自然语言进行传输和备份,下载模块采用24V电源,安全可靠,并且便于拆卸。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明的系统结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1所示,本发明提供技术方案,一种基于自然语言的语言储存系统,包括主板、处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块;
处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、备份模块、下载模块和备份模块均安装在主板表面,且处理模块与收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块依次相连;
其中主板模块与WIFI相连。
根据上述技术方案,处理模块为CPU处理器,对于数据进行数字量的转换,将所得自然语言进行数字量的转换,并且进行数据传输,为各个模块中的传输与解析介质。
根据上述技术方案,收录模块为USB接口、麦克风和触摸屏;
USB接口外接的移动存储设备相连,从而将数据进行移动传输;
麦克风将自然语言通过语音方式进行正常的传输预定导入,从而实现自然语言的音频接收与转换;
触摸屏为手写与拼音输入,并与主板控制相连,与网络信号进行网络数据库的载入。
根据上述技术方案,比较模块对于处理模块的传输信息进行处理,对于主板与WIFI相连,从而对数据库的资料进行对比,比较自然语言的近义、反义和谐音词进收录,并且对于自然语言的语句进行分段解析:
采用词典分词法、切分标记的分词方法和专家分词方法进行解析。
根据上述技术方案,词典分词法:通过构造一个机内词典并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时即把它作为被选词记录下来;
切分标记的分词方法:将能够断开词和词组、表示汉字之间关系的汉字集合组成词典,即切分标记词典,包括标点符号、表示汉字之间联系关系的汉字,具体切分方法是用切分标记先将文本分割成词组或短语,再将它们按一定的分解模式分割成单词和专用词;
专家分词方法:将自动分词看作知识推理的过程,力求从结构和功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识和部分语义知识,把知识的标识、知识库的逻辑结构与知识库的维护系统设计放在片位,对于常识性知识采用语义网络表示。
根据上述技术方案,加密模块对于存储模块和备份模块进行加密,设置三级密码,一级密码用于管理员,二级密码用于企业平台,三级密码用于游客进行修改。
根据上述技术方案,上传模块将自然语言的分段解析与词语上传到存储模块和备份模块,上传模块存储到存储模块中为实时传输,上传模块存储到备份模块中为定时传输,在处理模块休息中进行传输,并进行分段传输,保证传输中的稳定性。
根据上述技术方案,存储模块为可拆卸式固态硬盘,便于数据的快速传输与接收,下载模块为下载器,用于主板与外界的连接,从而便于数据的下载、中断、解压和传输。
根据上述技术方案,备份模块为备份存储硬盘和云备份,通过上传模块进行备份存储,并且上传模块连接主板,将自然语言进行传输和备份。
根据上述技术方案,下载模块采用24V电源,为外接设备,并且下载采用USB3.0接口进行数据传输。
与现有技术相比,本发明的有益效果:本发明结构科学合理,使用安全方便,首先将系统进行了合理的任务分配,并且通过主板与网络相连,提取网络中的数据库,进行一个初始的数据接收,接着通过收录模块对于新型的自然语言进行输入,而通过词典分词法、切分标记的分词方法和专家分词方法进行解析,保证了自然语言翻译的稳定与合理性,并通过加密模块对于存储模块和备份模块进行加密,保证自然语言自身的安全性,上传模块将自然语言的分段解析与词语上传到存储模块和备份模块,上传模块存储到存储模块中为实时传输,上传模块存储到备份模块中为定时传输,在处理模块休息中进行传输,并进行分段传输,保证传输中的稳定性,且备份模块为备份存储硬盘和云备份,通过上传模块进行备份存储,并且上传模块连接主板,将自然语言进行传输和备份,下载模块采用24V电源,安全可靠,并且便于拆卸。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自然语言的语言储存系统,其特征在于:包括主板、处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块;
所述处理模块、收录模块、比较模块、加密模块、上传模块、存储模块、备份模块、下载模块和备份模块均安装在主板表面,且处理模块与收录模块、比较模块、加密模块、上传模块、存储模块、下载模块和备份模块依次相连;
其中主板模块与WIFI相连。
2.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述处理模块为CPU处理器,对于数据进行数字量的转换,将所得自然语言进行数字量的转换,并且进行数据传输,为各个模块中的传输与解析介质。
3.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述收录模块为USB接口、麦克风和触摸屏;
所述USB接口外接的移动存储设备相连,从而将数据进行移动传输;
所述麦克风将自然语言通过语音方式进行正常的传输预定导入,从而实现自然语言的音频接收与转换;
所述触摸屏为手写与拼音输入,并与主板控制相连,与网络信号进行网络数据库的载入。
4.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述比较模块对于处理模块的传输信息进行处理,对于主板与WIFI相连,从而对数据库的资料进行对比,比较自然语言的近义、反义和谐音词进收录,并且对于自然语言的语句进行分段解析:
采用词典分词法、切分标记的分词方法和专家分词方法进行解析。
5.根据权利要求4所述的一种基于自然语言的语言储存系统,其特征在于,所述词典分词法:通过构造一个机内词典并将其与被标引的信息进行匹配,当从待处理的信息中得到词典词汇时即把它作为被选词记录下来;
所述切分标记的分词方法:将能够断开词和词组、表示汉字之间关系的汉字集合组成词典,即切分标记词典,包括标点符号、表示汉字之间联系关系的汉字,具体切分方法是用切分标记先将文本分割成词组或短语,再将它们按一定的分解模式分割成单词和专用词;
所述专家分词方法:将自动分词看作知识推理的过程,力求从结构和功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识和部分语义知识,把知识的标识、知识库的逻辑结构与知识库的维护系统设计放在片位,对于常识性知识采用语义网络表示。
6.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述加密模块对于存储模块和备份模块进行加密,设置三级密码,一级密码用于管理员,二级密码用于企业平台,三级密码用于游客进行修改。
7.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述上传模块将自然语言的分段解析与词语上传到存储模块和备份模块,所述上传模块存储到存储模块中为实时传输,所述上传模块存储到备份模块中为定时传输,在处理模块休息中进行传输,并进行分段传输,保证传输中的稳定性。
8.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述存储模块为可拆卸式固态硬盘,便于数据的快速传输与接收,所述下载模块为下载器,用于主板与外界的连接,从而便于数据的下载、中断、解压和传输。
9.根据权利要求1所述的一种基于自然语言的语言储存系统,其特征在于,所述备份模块为备份存储硬盘和云备份,通过上传模块进行备份存储,并且上传模块连接主板,将自然语言进行传输和备份。
10.根据权利要求8所述的一种基于自然语言的语言储存系统,其特征在于,所述下载模块采用24V电源,为外接设备,并且下载采用USB3.0接口进行数据传输。
CN202010169130.3A 2020-03-12 2020-03-12 一种基于自然语言的语言储存系统 Pending CN111274810A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010169130.3A CN111274810A (zh) 2020-03-12 2020-03-12 一种基于自然语言的语言储存系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010169130.3A CN111274810A (zh) 2020-03-12 2020-03-12 一种基于自然语言的语言储存系统

Publications (1)

Publication Number Publication Date
CN111274810A true CN111274810A (zh) 2020-06-12

Family

ID=71002396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010169130.3A Pending CN111274810A (zh) 2020-03-12 2020-03-12 一种基于自然语言的语言储存系统

Country Status (1)

Country Link
CN (1) CN111274810A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020173946A1 (en) * 2001-03-28 2002-11-21 Christy Samuel T. Translation and communication of a digital message using a pivot language
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN207541938U (zh) * 2017-11-08 2018-06-26 延边大学 一种自然语言智能交互机
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020173946A1 (en) * 2001-03-28 2002-11-21 Christy Samuel T. Translation and communication of a digital message using a pivot language
CN101246492A (zh) * 2008-02-26 2008-08-20 华中科技大学 基于自然语言的全文检索系统
CN207541938U (zh) * 2017-11-08 2018-06-26 延边大学 一种自然语言智能交互机
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨凡;任丹;: "基于知识图谱的自然语言中歧义字段切分系统设计" *

Similar Documents

Publication Publication Date Title
US20210406465A1 (en) Stylistic Text Rewriting for a Target Author
US10402433B2 (en) Method and apparatus for recommending answer to question based on artificial intelligence
US20190103097A1 (en) Method and apparatus for correcting input speech based on artificial intelligence, and storage medium
CN111126065B (zh) 一种自然语言文本的信息提取方法及装置
US20130006611A1 (en) Method and system for extracting shadow entities from emails
EP3751445A1 (en) Text labeling method and device based on teacher forcing
JP2021518027A (ja) セマンティックテキストデータをタグとマッチングさせる方法、装置、及び命令を格納するコンピュータ読み取り可能な記憶媒体
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN111144102B (zh) 用于识别语句中实体的方法、装置和电子设备
US20210089587A1 (en) System and Method for Determining Application Programming Interface and Object Bindings on Natural Language Processed Inputs
CN105593845A (zh) 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
CN104239289B (zh) 音节划分方法和音节划分设备
CN105630770A (zh) 一种基于sc文法的分词标音连写方法及装置
US20200242142A1 (en) Intelligent cryptic query-response in action proposal communications
CN102129422A (zh) 模板提取方法和装置
US10120843B2 (en) Generation of parsable data for deep parsing
CN114971530A (zh) 基于自然语言处理的协同运维方法及装置
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
CN113918031A (zh) 使用子字符信息进行中文标点恢复的系统和方法
CN111274810A (zh) 一种基于自然语言的语言储存系统
US20180113932A1 (en) Data search device, data search method, and recording medium
WO2020132852A1 (en) Coding information extractor
US9146918B2 (en) Compressing data for natural language processing
CN111626055B (zh) 文本处理方法及装置、计算机存储介质、电子设备
CN109657207B (zh) 条款的格式化处理方法和处理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination