CN111897958A - 基于自然语言处理的古诗词分类方法 - Google Patents

基于自然语言处理的古诗词分类方法 Download PDF

Info

Publication number
CN111897958A
CN111897958A CN202010684783.5A CN202010684783A CN111897958A CN 111897958 A CN111897958 A CN 111897958A CN 202010684783 A CN202010684783 A CN 202010684783A CN 111897958 A CN111897958 A CN 111897958A
Authority
CN
China
Prior art keywords
poetry
data
data set
ancient
matching result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010684783.5A
Other languages
English (en)
Other versions
CN111897958B (zh
Inventor
邓桦
闫灵芝
孙娟娟
魏增辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010684783.5A priority Critical patent/CN111897958B/zh
Publication of CN111897958A publication Critical patent/CN111897958A/zh
Application granted granted Critical
Publication of CN111897958B publication Critical patent/CN111897958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自然语言处理的古诗词分类方法,包括:输入待分类的诗词数据;根据预设词库对所述诗词数据进行分词处理,所述预设词库至少包括第一数据集和第二数据集;将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果,所述第一匹配结果表征出现在所述诗词数据中的所有单个字符;根据所述第一匹配结果在所述第一数据集中匹配词组,获得第二匹配结果,所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签;根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。本发明的基于自然语言处理的古诗词分类方法,能够借助于计算机算法对古诗词进行分词,获取其词性和预设的分类标签,从而高效的对输入的古诗词进行分类。

Description

基于自然语言处理的古诗词分类方法
技术领域
本发明涉及一种文本分类方法,特别是一种基于自然语言处理的古诗词分类方法。
背景技术
中国古代诗歌是中华民族上下五千年的一个思想结晶,它为我们的民族文化添上了浓墨重彩的一笔。在古代,诗词歌赋是才能的一个重要的衡量标准,还一度被纳入选拔人才的考试范畴,而自新文化运动后,白话文的兴起,诗歌则开始转向了现代诗,与古典诗词相比,现代诗词的语言更为直白简单,自然也就更容易让人理解,同时也由于时代的变迁,古典诗词在我们的生活中并不常见,这些因素都使得古典诗词如今在现代人的心中,就是一些传统的,甚至是古板的表达方式,致使一部分现代人不愿去接触。但是中国古典诗词至今有其存在的现实意义。首先,中国的古典诗歌给人心灵的洗礼。当我们将自己的喜怒哀乐及对生活的真实感受用古典诗词表达出来时,就会发现生活被艺术化了,我们的感情得到了升华,心灵也得到了美的洗礼。其次,中国的古典诗歌是中华文化的象征。当今世界国与国之间的综合国力的较量,总是免不了文化软实力的比较,而中国古典诗词正是中国文化博大精深,源远流长的一个象征,也是拉近古代文化与现代文化的一个纽带。最后,中国古典诗词对人的修身养性是其特有的。古典诗词创作是现代人生活的艺术品,它品味生活中的“美”,并使这种美感永恒存在。古典诗词在把握人类生活的美感方面,具有得天独厚的优势。它通过押韵、对偶、平仄、音节等艺术手段,创造出来韵律、节奏、意象等,往往烘托出美好的意境。
基于以上论述的古诗词所存在的现实意义,可见针对现代人来说,针对古诗词的深入了解是十分必要的。但是,除了广为流传的一些诗词来说,大多数诗词对于普通人来说,很难系统的学习和了解。因此系统性的分类,以便于更好的学习,十分必要。现在普遍接受的诗词分类,可包括有:山水田园诗、惜别送别离别诗、思乡怀远诗、边塞诗、咏史怀古诗、及咏物诗几种。随着电子设备的普及,目前尚无基于计算机算法的古诗词分类方法出现。
发明内容
鉴于现有技术存在的上述问题,本发明的一方面目的在于提供一种基于自然语言处理的古诗词分类方法。该方法可通过自然语言处理算法的方式对海量的古诗词进行自动分类,方便用户查找和学习。
为了实现上述目的,本发明的一个实施例提供的基于自然语言处理的古诗词分类方法,包括:
输入待分类的诗词数据;
根据预设词库对所述诗词数据进行分词处理,所述预设词库至少包括第一数据集和第二数据集,其中,所述第一数据集为有限集,其包含所有的古汉语词组信息,所述古汉语词组信息至少包括词性和分类标签;所述第二数据集为有限集,其包含所有古汉语单个字符;
将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果,所述第一匹配结果表征出现在所述诗词数据中的所有单个字符;
根据所述第一匹配结果在所述第一数据集中匹配词组,获得第二匹配结果,所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签;
根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。
作为优选,输入待分类的诗词数据之前,根据第三数据集对所述诗词数据进行预处理,所述第三数据集为有限集,其包含所有古汉语虚词信息,所述预处理为从待处理的所述诗词数据中去除虚词。
作为优选,所述预设词库还包括第四数据集,所述第四数据集包括包含在所述第二数据集,但不包含在所述第一数据集的所有古汉语单个字符及其词性和分类标签;所述根据所述第一匹配结果在所述第一数据集中匹配词组,还包括根据所述第一匹配结果在所述第四数据集中匹配单个字符并获取词性和分类标签。
与现有技术相比较,本发明的基于自然语言处理的古诗词分类方法,能够借助于计算机算法对古诗词进行分词,获取其词性和预设的分类标签,从而高效的对输入的古诗词进行分类。方便了现代人更为系统的了解古诗词。
应当理解,前面的一般描述和以下详细描述都仅是示例性和说明性的,而不是用于限制本公开。
本申请文件提供本公开中描述的技术的各种实现或示例的概述,并不是所公开技术的全部范围或所有特征的全面公开。
附图说明
图1本发明的基于自然语言处理的古诗词分类方法的流程图。
具体实施方式
为了使得本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
除非另外定义,本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,还可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
为了保持本公开实施例的以下说明清楚且简明,本公开省略了已知功能和已知部件的详细说明。
如图1所示,本发明的一个实施例提供的基于自然语言处理的古诗词分类方法,包括:
S1、输入待分类的诗词数据;本发明的古诗词分类方法可应用于基于C/S架构的计算机系统,因此输入待分类诗词数据的方式可为客户端通过终端输入的方式,或者直接由本地或云端服务器的诗词数据库中获取。该诗词数据是指以古体诗、近体诗和格律词为代表的中国古代传统诗歌,例如唐诗、宋词等。
S2、根据预设词库对所述诗词数据进行分词处理,所述预设词库至少包括第一数据集和第二数据集,其中,所述第一数据集为有限集,其包含所有的古汉语词组信息,所述古汉语词组信息至少包括词性和分类标签;所述第二数据集为有限集,其包含所有古汉语单个字符;具体来说,本发明中,预设词库来源于已经出版的古汉语典籍,例如,其中第一数据集和第二数据集均来源于《古代汉语词典》,商务印书馆,ISBN:978-7-100-01549-3。
S3、将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果,所述第一匹配结果表征出现在所述诗词数据中的所有单个字符;由于第二数据集仅包括单个的古汉语字符,因此,在经过匹配之后,诗词数据会被按照单个字符划分,也即第一匹配结果为出现在诗词数据中的单个古汉语字符的集合。
S4、根据所述第一匹配结果在所述第一数据集中匹配词组,获得第二匹配结果,所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签;具体地,在这一步骤中,可根据已经匹配出的出现在第一数据集中的单个的古汉语字符,查找由单个的古汉语字符构成的词组,例如字符“空”,可得到与“空”有关的词组的集合,例如,{空洞、空房、空山、空泛、空腹、空幻、空怀、空寂、空口、空阔、空灵、空明、空前、空文、空心、空余、空虚},此处仅为示例性说明,本发明并不做具体限制。此时,单个的古汉语字符“空”即为字根,用于形成词组。依次类推,通过对诗词数据中的每个古汉语字符进行基于单个字符的词组匹配,同时获取匹配出的词组的词性和分类标签,以便后续进行基于自然语言的分词处理。其中词性包括名词、动词、形容词、数词、量词、代词,也可包括属于虚词的副词、介词、连词、助词、叹词、拟声词。而分类标签则包括山水田园诗、惜别送别离别诗、思乡怀远诗、边塞诗、咏史怀古诗及咏物诗,也可包括词牌名,例如定风波、念奴娇、浪淘沙、清平乐、如梦令、沁园春、浣溪沙、菩萨蛮等等。
S5、而后再根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。举例来说,以王维的《山居秋暝》为例,其全文如下:
空山/新雨/后,天气/晚/来/秋。
明月/松/间/照,清泉/石/上/流。
竹/喧/归/浣女,莲/动/下/渔舟。
随/意/春芳/歇,王孙/自/可/留。
在经过S3和S4步骤后,可得到包括“空山”、“新雨”、“天气”、“明月”、“清泉”等词组,而在词性上,根据第一数据集中的词性标注,应当理解,这一诗词中大多数关键词属于名词,而后针对每一词组的分类标签进行频次统计,经排序后可知“山水田园诗”的标签最多,以此可作为分类依据,也即可分类王维的《山居秋暝》为“山水田园诗”。
另需说明的是,目前常规的中文分词算法,一般分为三类,一是基于词表的分词算法,其中包括正向最大匹配算法FMM、逆向最大匹配算法BMM和双向最大匹配算法BM;二是基于统计模型的分词算法:基于N-gram语言模型的分词算法;三是基于序列标注的分词算法,其包括基于HMM的分词算法、基于CRF的分词算法和基于深度学习的端到端的分词算法。但是,我们知道,古代汉语中的语法和句读相当繁琐复杂,盲目套用以上现有的现代汉语的分词技术,是无法得出准确的分词结果的。而本发明上述采用的方法,接近于FMM算法,但不同的是,在本发明方法中,至少包括了第一数据集和第二数据集,首先通过第二数据集的匹配,得出单个字符,而后以单个字符为字根,再去匹配词组,而后获取出现在古汉语诗词中的词组的词性和分类标签,再结合分类标签出现的频次,给出最终的分类结果。这和上述现有的现代汉语分词的任何一种算法都是不同的。
并且,进一步地,作为优选,输入待分类的诗词数据之前,还可根据第三数据集对所述诗词数据进行预处理,所述第三数据集为有限集,其包含所有古汉语虚词信息,所述预处理为从待处理的所述诗词数据中去除虚词。由于虚词并不能构成字根,也即不能与其他字符构成词组,因此去除虚词之后,可以大大提高本发明的方法的执行效率。
在另一些实施例中,作为优选,所述预设词库还包括第四数据集,所述第四数据集包括包含在所述第二数据集,但不包含在所述第一数据集的所有古汉语单个字符及其词性和分类标签;所述根据所述第一匹配结果在所述第一数据集中匹配词组,还包括根据所述第一匹配结果在所述第四数据集中匹配单个字符并获取词性和分类标签。举例来说,仍以王维的《山居秋暝》来说,其中的“松”、“竹”和“莲”都具有明确的词性和有代表意义的分类标签,因此,在这一实施例中,可在去除虚词之后,判断没有以字根构成词组的单个字符中,获取其词性和分类标签,将其与词组的词性和分类标签一起进行统计和排序,获得最终的分类结果。可以理解的是,这一方式,能进一步提升分类的准确性。
当然,以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (3)

1.基于自然语言处理的古诗词分类方法,包括:
输入待分类的诗词数据;
根据预设词库对所述诗词数据进行分词处理,所述预设词库至少包括第一数据集和第二数据集,其中,所述第一数据集为有限集,其包含所有的古汉语词组信息,所述古汉语词组信息至少包括词性和分类标签;所述第二数据集为有限集,其包含所有古汉语单个字符;
将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果,所述第一匹配结果表征出现在所述诗词数据中的所有单个字符;
根据所述第一匹配结果在所述第一数据集中匹配词组,获得第二匹配结果,所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签;
根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。
2.如权利要求1所述的基于自然语言处理的古诗词分类方法,输入待分类的诗词数据之前,根据第三数据集对所述诗词数据进行预处理,所述第三数据集为有限集,其包含所有古汉语虚词信息,所述预处理为从待处理的所述诗词数据中去除虚词。
3.如权利要求2所述的基于自然语言处理的古诗词分类方法,所述预设词库还包括第四数据集,所述第四数据集包括包含在所述第二数据集,但不包含在所述第一数据集的所有古汉语单个字符及其词性和分类标签;所述根据所述第一匹配结果在所述第一数据集中匹配词组,还包括根据所述第一匹配结果在所述第四数据集中匹配单个字符并获取词性和分类标签。
CN202010684783.5A 2020-07-16 2020-07-16 基于自然语言处理的古诗词分类方法 Active CN111897958B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010684783.5A CN111897958B (zh) 2020-07-16 2020-07-16 基于自然语言处理的古诗词分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010684783.5A CN111897958B (zh) 2020-07-16 2020-07-16 基于自然语言处理的古诗词分类方法

Publications (2)

Publication Number Publication Date
CN111897958A true CN111897958A (zh) 2020-11-06
CN111897958B CN111897958B (zh) 2024-03-12

Family

ID=73189137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010684783.5A Active CN111897958B (zh) 2020-07-16 2020-07-16 基于自然语言处理的古诗词分类方法

Country Status (1)

Country Link
CN (1) CN111897958B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434137A (zh) * 2020-12-11 2021-03-02 乐山师范学院 一种基于人工智能的诗词检索方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配系统及方法
CN107688596A (zh) * 2017-06-09 2018-02-13 平安科技(深圳)有限公司 突发话题检测方法及突发话题检测设备
CN107918605A (zh) * 2017-11-22 2018-04-17 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN109471936A (zh) * 2018-10-11 2019-03-15 上海叔本华智能科技有限公司 一种用于对设备维护信息进行特征分类的方法和系统
CN109885836A (zh) * 2019-02-21 2019-06-14 陈包容 一种精准分词的方法
CN109918509A (zh) * 2019-03-12 2019-06-21 黑龙江世纪精彩科技有限公司 基于信息提取的场景生成方法及场景生成系统的存储介质
CN110188781A (zh) * 2019-06-06 2019-08-30 焦点科技股份有限公司 一种基于深度学习的古诗文自动识别方法
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110825850A (zh) * 2019-11-07 2020-02-21 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111221943A (zh) * 2020-01-13 2020-06-02 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778171A (zh) * 2014-01-10 2015-07-15 携程计算机技术(上海)有限公司 字符串匹配系统及方法
CN107688596A (zh) * 2017-06-09 2018-02-13 平安科技(深圳)有限公司 突发话题检测方法及突发话题检测设备
CN107918605A (zh) * 2017-11-22 2018-04-17 北京百度网讯科技有限公司 分词处理方法、装置、移动终端及计算机可读存储介质
CN109471936A (zh) * 2018-10-11 2019-03-15 上海叔本华智能科技有限公司 一种用于对设备维护信息进行特征分类的方法和系统
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN109885836A (zh) * 2019-02-21 2019-06-14 陈包容 一种精准分词的方法
CN109918509A (zh) * 2019-03-12 2019-06-21 黑龙江世纪精彩科技有限公司 基于信息提取的场景生成方法及场景生成系统的存储介质
CN110188781A (zh) * 2019-06-06 2019-08-30 焦点科技股份有限公司 一种基于深度学习的古诗文自动识别方法
CN110276052A (zh) * 2019-06-10 2019-09-24 北京科技大学 一种古汉语自动分词及词性标注一体化方法及装置
CN110825850A (zh) * 2019-11-07 2020-02-21 哈尔滨工业大学(深圳) 一种自然语言主题分类方法及装置
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111221943A (zh) * 2020-01-13 2020-06-02 口口相传(北京)网络技术有限公司 查询结果匹配度计算方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434137A (zh) * 2020-12-11 2021-03-02 乐山师范学院 一种基于人工智能的诗词检索方法及系统
CN112434137B (zh) * 2020-12-11 2023-04-11 乐山师范学院 一种基于人工智能的诗词检索方法及系统

Also Published As

Publication number Publication date
CN111897958B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN109710770A (zh) 一种基于迁移学习的文本分类方法及装置
CN110287320A (zh) 一种结合注意力机制的深度学习多分类情感分析模型
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN114780582A (zh) 基于表格问答的自然答案生成系统及其方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN111444720A (zh) 一种英文文本的命名实体识别方法
CN111897958A (zh) 基于自然语言处理的古诗词分类方法
CN115906835B (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
US20230069113A1 (en) Text Summarization Method and Text Summarization System
CN111178009A (zh) 一种基于特征词加权的文本多语种识别方法
CN111428479A (zh) 一种文本中预测标点的方法和装置
Cristea et al. From scan to text. Methodology, solutions and perspectives of deciphering old cyrillic Romanian documents into the Latin script
CN114722829A (zh) 一种基于语言模型的修辞古诗自动生成方法
CN115048940A (zh) 基于实体词属性特征和回译的中文金融文本数据增强方法
CN112307759B (zh) 一种面向社交网络不规则短文本的粤语分词方法
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
Asahiah Development of a Standard Yorùbá digital text automatic diacritic restoration system
CN110362803B (zh) 一种基于领域特征词法组合的文本模板生成方法
CN113240485A (zh) 文本生成模型的训练方法、文本生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant