CN111897958A

CN111897958A - 基于自然语言处理的古诗词分类方法

Info

Publication number: CN111897958A
Application number: CN202010684783.5A
Authority: CN
Inventors: 邓桦; 闫灵芝; 孙娟娟; 魏增辉
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-06
Anticipated expiration: 2040-07-16
Also published as: CN111897958B

Abstract

本发明公开了一种基于自然语言处理的古诗词分类方法，包括：输入待分类的诗词数据；根据预设词库对所述诗词数据进行分词处理，所述预设词库至少包括第一数据集和第二数据集；将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果，所述第一匹配结果表征出现在所述诗词数据中的所有单个字符；根据所述第一匹配结果在所述第一数据集中匹配词组，获得第二匹配结果，所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签；根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。本发明的基于自然语言处理的古诗词分类方法，能够借助于计算机算法对古诗词进行分词，获取其词性和预设的分类标签，从而高效的对输入的古诗词进行分类。

Description

基于自然语言处理的古诗词分类方法

技术领域

本发明涉及一种文本分类方法，特别是一种基于自然语言处理的古诗词分类方法。

背景技术

中国古代诗歌是中华民族上下五千年的一个思想结晶，它为我们的民族文化添上了浓墨重彩的一笔。在古代，诗词歌赋是才能的一个重要的衡量标准，还一度被纳入选拔人才的考试范畴，而自新文化运动后，白话文的兴起，诗歌则开始转向了现代诗，与古典诗词相比，现代诗词的语言更为直白简单，自然也就更容易让人理解，同时也由于时代的变迁，古典诗词在我们的生活中并不常见，这些因素都使得古典诗词如今在现代人的心中，就是一些传统的，甚至是古板的表达方式，致使一部分现代人不愿去接触。但是中国古典诗词至今有其存在的现实意义。首先，中国的古典诗歌给人心灵的洗礼。当我们将自己的喜怒哀乐及对生活的真实感受用古典诗词表达出来时，就会发现生活被艺术化了，我们的感情得到了升华，心灵也得到了美的洗礼。其次，中国的古典诗歌是中华文化的象征。当今世界国与国之间的综合国力的较量，总是免不了文化软实力的比较，而中国古典诗词正是中国文化博大精深，源远流长的一个象征，也是拉近古代文化与现代文化的一个纽带。最后，中国古典诗词对人的修身养性是其特有的。古典诗词创作是现代人生活的艺术品，它品味生活中的“美”，并使这种美感永恒存在。古典诗词在把握人类生活的美感方面，具有得天独厚的优势。它通过押韵、对偶、平仄、音节等艺术手段，创造出来韵律、节奏、意象等，往往烘托出美好的意境。

基于以上论述的古诗词所存在的现实意义，可见针对现代人来说，针对古诗词的深入了解是十分必要的。但是，除了广为流传的一些诗词来说，大多数诗词对于普通人来说，很难系统的学习和了解。因此系统性的分类，以便于更好的学习，十分必要。现在普遍接受的诗词分类，可包括有：山水田园诗、惜别送别离别诗、思乡怀远诗、边塞诗、咏史怀古诗、及咏物诗几种。随着电子设备的普及，目前尚无基于计算机算法的古诗词分类方法出现。

发明内容

鉴于现有技术存在的上述问题，本发明的一方面目的在于提供一种基于自然语言处理的古诗词分类方法。该方法可通过自然语言处理算法的方式对海量的古诗词进行自动分类，方便用户查找和学习。

为了实现上述目的，本发明的一个实施例提供的基于自然语言处理的古诗词分类方法，包括：

输入待分类的诗词数据；

根据预设词库对所述诗词数据进行分词处理，所述预设词库至少包括第一数据集和第二数据集，其中，所述第一数据集为有限集，其包含所有的古汉语词组信息，所述古汉语词组信息至少包括词性和分类标签；所述第二数据集为有限集，其包含所有古汉语单个字符；

将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果，所述第一匹配结果表征出现在所述诗词数据中的所有单个字符；

根据所述第一匹配结果在所述第一数据集中匹配词组，获得第二匹配结果，所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签；

根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。

作为优选，输入待分类的诗词数据之前，根据第三数据集对所述诗词数据进行预处理，所述第三数据集为有限集，其包含所有古汉语虚词信息，所述预处理为从待处理的所述诗词数据中去除虚词。

作为优选，所述预设词库还包括第四数据集，所述第四数据集包括包含在所述第二数据集，但不包含在所述第一数据集的所有古汉语单个字符及其词性和分类标签；所述根据所述第一匹配结果在所述第一数据集中匹配词组，还包括根据所述第一匹配结果在所述第四数据集中匹配单个字符并获取词性和分类标签。

与现有技术相比较，本发明的基于自然语言处理的古诗词分类方法，能够借助于计算机算法对古诗词进行分词，获取其词性和预设的分类标签，从而高效的对输入的古诗词进行分类。方便了现代人更为系统的了解古诗词。

应当理解，前面的一般描述和以下详细描述都仅是示例性和说明性的，而不是用于限制本公开。

本申请文件提供本公开中描述的技术的各种实现或示例的概述，并不是所公开技术的全部范围或所有特征的全面公开。

附图说明

图1本发明的基于自然语言处理的古诗词分类方法的流程图。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，还可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

如图1所示，本发明的一个实施例提供的基于自然语言处理的古诗词分类方法，包括：

S1、输入待分类的诗词数据；本发明的古诗词分类方法可应用于基于C/S架构的计算机系统，因此输入待分类诗词数据的方式可为客户端通过终端输入的方式，或者直接由本地或云端服务器的诗词数据库中获取。该诗词数据是指以古体诗、近体诗和格律词为代表的中国古代传统诗歌，例如唐诗、宋词等。

S2、根据预设词库对所述诗词数据进行分词处理，所述预设词库至少包括第一数据集和第二数据集，其中，所述第一数据集为有限集，其包含所有的古汉语词组信息，所述古汉语词组信息至少包括词性和分类标签；所述第二数据集为有限集，其包含所有古汉语单个字符；具体来说，本发明中，预设词库来源于已经出版的古汉语典籍，例如，其中第一数据集和第二数据集均来源于《古代汉语词典》，商务印书馆，ISBN:978-7-100-01549-3。

S3、将所述诗词数据与所述第二数据集进行匹配获得第一匹配结果，所述第一匹配结果表征出现在所述诗词数据中的所有单个字符；由于第二数据集仅包括单个的古汉语字符，因此，在经过匹配之后，诗词数据会被按照单个字符划分，也即第一匹配结果为出现在诗词数据中的单个古汉语字符的集合。

S4、根据所述第一匹配结果在所述第一数据集中匹配词组，获得第二匹配结果，所述第二匹配结果表征出现在待分类的所述诗词数据中所有词组的词性和分类标签；具体地，在这一步骤中，可根据已经匹配出的出现在第一数据集中的单个的古汉语字符，查找由单个的古汉语字符构成的词组，例如字符“空”，可得到与“空”有关的词组的集合，例如，{空洞、空房、空山、空泛、空腹、空幻、空怀、空寂、空口、空阔、空灵、空明、空前、空文、空心、空余、空虚}，此处仅为示例性说明，本发明并不做具体限制。此时，单个的古汉语字符“空”即为字根，用于形成词组。依次类推，通过对诗词数据中的每个古汉语字符进行基于单个字符的词组匹配，同时获取匹配出的词组的词性和分类标签，以便后续进行基于自然语言的分词处理。其中词性包括名词、动词、形容词、数词、量词、代词，也可包括属于虚词的副词、介词、连词、助词、叹词、拟声词。而分类标签则包括山水田园诗、惜别送别离别诗、思乡怀远诗、边塞诗、咏史怀古诗及咏物诗，也可包括词牌名，例如定风波、念奴娇、浪淘沙、清平乐、如梦令、沁园春、浣溪沙、菩萨蛮等等。

S5、而后再根据出现在待分类诗词数据中的所有词组的所述词性和/或所述分类标签对所述诗词数据进行分类。举例来说，以王维的《山居秋暝》为例，其全文如下：

空山/新雨/后，天气/晚/来/秋。

明月/松/间/照，清泉/石/上/流。

竹/喧/归/浣女，莲/动/下/渔舟。

随/意/春芳/歇，王孙/自/可/留。

在经过S3和S4步骤后，可得到包括“空山”、“新雨”、“天气”、“明月”、“清泉”等词组，而在词性上，根据第一数据集中的词性标注，应当理解，这一诗词中大多数关键词属于名词，而后针对每一词组的分类标签进行频次统计，经排序后可知“山水田园诗”的标签最多，以此可作为分类依据，也即可分类王维的《山居秋暝》为“山水田园诗”。

另需说明的是，目前常规的中文分词算法，一般分为三类，一是基于词表的分词算法，其中包括正向最大匹配算法FMM、逆向最大匹配算法BMM和双向最大匹配算法BM；二是基于统计模型的分词算法：基于N-gram语言模型的分词算法；三是基于序列标注的分词算法，其包括基于HMM的分词算法、基于CRF的分词算法和基于深度学习的端到端的分词算法。但是，我们知道，古代汉语中的语法和句读相当繁琐复杂，盲目套用以上现有的现代汉语的分词技术，是无法得出准确的分词结果的。而本发明上述采用的方法，接近于FMM算法，但不同的是，在本发明方法中，至少包括了第一数据集和第二数据集，首先通过第二数据集的匹配，得出单个字符，而后以单个字符为字根，再去匹配词组，而后获取出现在古汉语诗词中的词组的词性和分类标签，再结合分类标签出现的频次，给出最终的分类结果。这和上述现有的现代汉语分词的任何一种算法都是不同的。

并且，进一步地，作为优选，输入待分类的诗词数据之前，还可根据第三数据集对所述诗词数据进行预处理，所述第三数据集为有限集，其包含所有古汉语虚词信息，所述预处理为从待处理的所述诗词数据中去除虚词。由于虚词并不能构成字根，也即不能与其他字符构成词组，因此去除虚词之后，可以大大提高本发明的方法的执行效率。

在另一些实施例中，作为优选，所述预设词库还包括第四数据集，所述第四数据集包括包含在所述第二数据集，但不包含在所述第一数据集的所有古汉语单个字符及其词性和分类标签；所述根据所述第一匹配结果在所述第一数据集中匹配词组，还包括根据所述第一匹配结果在所述第四数据集中匹配单个字符并获取词性和分类标签。举例来说，仍以王维的《山居秋暝》来说，其中的“松”、“竹”和“莲”都具有明确的词性和有代表意义的分类标签，因此，在这一实施例中，可在去除虚词之后，判断没有以字根构成词组的单个字符中，获取其词性和分类标签，将其与词组的词性和分类标签一起进行统计和排序，获得最终的分类结果。可以理解的是，这一方式，能进一步提升分类的准确性。

当然，以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.基于自然语言处理的古诗词分类方法，包括：

输入待分类的诗词数据；

2.如权利要求1所述的基于自然语言处理的古诗词分类方法，输入待分类的诗词数据之前，根据第三数据集对所述诗词数据进行预处理，所述第三数据集为有限集，其包含所有古汉语虚词信息，所述预处理为从待处理的所述诗词数据中去除虚词。

3.如权利要求2所述的基于自然语言处理的古诗词分类方法，所述预设词库还包括第四数据集，所述第四数据集包括包含在所述第二数据集，但不包含在所述第一数据集的所有古汉语单个字符及其词性和分类标签；所述根据所述第一匹配结果在所述第一数据集中匹配词组，还包括根据所述第一匹配结果在所述第四数据集中匹配单个字符并获取词性和分类标签。