CN111178043A

CN111178043A - 一种识别学术观点句的方法及系统

Info

Publication number: CN111178043A
Application number: CN201911414427.5A
Authority: CN
Inventors: 徐健; 李纲; 魏泉; 桂思思; 冷杨名; 张虎胆; 雷文; 毛进; 刘湘赣; 詹璐鸣
Original assignee: Wuhan Youpin Technology Co ltd
Current assignee: Wuhan Youpin Technology Co ltd
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-19

Abstract

本发明公开了一种识别学术观点句的方法及系统。先建立显性词数据库和隐性观点句识别模型；再通过显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果；通过隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果，有效解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题，实现了高效地从大量的学术文本中识别出学术观点句的技术效果。

Description

一种识别学术观点句的方法及系统

技术领域

本发明涉及观点识别技术领域，尤其涉及一种识别学术观点句的方法及系统。

背景技术

学术观点广泛存在于科学或学术研究过程中，其在科学或学术研究中具有很重要的作用。从宏观层面来看，学术观点的提出、质疑、否定、推翻、重建等是科学理论发展的体现，而不同学派或学者所持的不同学术观点和见解的交锋、争论、讨论，是科学发展的内在推动力。从个体层面来看，学术观点是学者思维活动的结果，对学者的科研活动与认知结构具有重要的作用。

学术观点经常以句子的形式出现，具有可度量和具体化的特征，可视为一种重要的学术文本信息资源。学术观点句的识别是进一步开展学术观点挖掘研究工作的基础，也是进一步在领域学科等更宏观层面开展学术观点挖掘研究的前面工作。随着科学研究人员规模的扩大与科研成果发表过程的规范化，学术文本的数量越来越大，且增长趋势越来越快，这给广大科研从业者带来了巨大的阅读负担，因此，通过现有的人工方式整理与归纳学者观点从而掌握某领域、学者研究进展与知识脉络也变得越来越困难，因此，如何高效地从大量的学术文本中识别出包含学术观点的句子具有很重要的意义。

发明内容

本发明通过提供一种识别学术观点句的方法及系统，解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题，实现了高效地从大量的学术文本中识别出学术观点句的技术效果。

本发明提供了一种识别学术观点句的方法，包括：

建立显性词数据库；

建立隐性观点句识别模型；

通过所述显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果；

通过所述隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果。

进一步地，所述建立隐性观点句识别模型，包括：

获取识别模型训练词；

对所述训练词进行训练，得到所述隐性观点句识别模型。

进一步地，在所述对所述训练词进行训练的过程中，使用10折交叉的方式划分训练集与测试集。

进一步地，所述训练词至少为以下任意一个：

词汇特征、核心词、核心词性、句式、长度、文内位置、重要性。

进一步地，所述通过所述显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果，包括：

通过所述显性词数据库对所述待识别的句子进行显性词匹配；

若所述待识别的句子中匹配到所述显性词数据库中的显性词，则所述待识别的句子为显性观点句。

本发明还提供了一种识别学术观点句的系统，包括：

数据库建立模块，用于建立显性词数据库；

识别模型建立模块，用于建立隐性观点句识别模型；

匹配模块，用于通过所述显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果；

识别模块，用于通过所述隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果。

进一步地，所述识别模型建立模块，包括：

训练词获取单元，用于获取识别模型训练词；

训练单元，用于对所述训练词进行训练，得到所述隐性观点句识别模型。

进一步地，所述识别模型建立模块，还包括：

划分单元，用于使用10折交叉的方式划分训练集与测试集。

进一步地，所述训练词至少为以下任意一个：

进一步地，所述匹配模块，具体用于通过所述显性词数据库对所述待识别的句子进行显性词匹配；若所述待识别的句子中匹配到所述显性词数据库中的显性词，则判断所述待识别的句子为显性观点句。

本发明中提供的一个或多个技术方案，至少具有如下技术效果或优点：

先建立显性词数据库和隐性观点句识别模型；再通过显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果；通过隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果，有效解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题，实现了高效地从大量的学术文本中识别出学术观点句的技术效果。

附图说明

图1为本发明实施例提供的识别学术观点句的方法的流程图；

图2为基于本发明实施例提供的识别学术观点句的方法的具体实施例的流程图；

图3为本发明实施例提供的识别学术观点句的系统的模块图。

具体实施方式

本发明实施例通过提供一种识别学术观点句的方法及系统，解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题，实现了高效地从大量的学术文本中识别出学术观点句的技术效果。

本发明实施例中的技术方案为解决上述问题，总体思路如下：

在对本发明实施例的技术方案进行说明之前，首先对本发明实施例中的显性观点句和隐性观点句的含义进行说明。其中，显性观点句是指那些含有明显提示词的学术观点句，例如：“认为”、“指出”、“表明”等；隐性观点句是指那些学术论文中含有作者对一些学术问题的理解判断和评价，但并未有“认为”、“指出”、“表明”等明显提示词的学术观点句。

为了更好地理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参见图1，本发明实施例提供的识别学术观点句的方法，包括：

步骤S110：建立显性词数据库；

在本实施例中，显性词即明显提示词，为具有明显观点表达的词语，如：认为、指出、表明等。

步骤S120：建立隐性观点句识别模型；

对本步骤进行具体说明，建立隐性观点句识别模型，包括：

获取识别模型训练词；

对训练词进行训练，得到隐性观点句识别模型。

为了提高学术观点句的识别准确性，在对训练词进行训练的过程中，使用10折交叉的方式划分训练集与测试集。

在本实施例中，训练词至少为以下任意一个：

词汇特征、核心词、核心词性、句式、长度、文内位置、重要性。使用的训练词越多，则学术观点句的识别准确性越高。

具体地，训练词获取的具体过程包括：

(1)词汇特征：构建常用的否定词、程度词表，共包含35个否定词(例如：不确定性、没有、不可能等)、61个程度词(例如：主要、显著、明显等),将各个句子中的否定词、程度词与表中的内容进行比对并剔除。将句子内容以文本型特征的形式存储在数据集中，使用String2vec过滤器(使用ik分词器对句子内容进行分词，分词间隔用空格表示)将文本型特征处理为标称型特征，特征名为字符名，特征值为词频和逆文档频率。

(2)核心词与核心词性：在对句子分词的基础上，对各个词语进行标注，使用Stanford的Parser句法分析器(选用汉语概率上下文无关文法模型)的依存句法分析功能标注各句子依存句法树，提取其核心词与词性形成特征。核心词特征名为"head_word"，其中word为具体的词，特征值为0和1。核心词性特征名为"head_pos"，其中pos替换为具体的词性，例如名词、动词等特征值也为0和1。这两类特征的值为0，表示该句子的核心词或词性不是下划线后面的词或词性，反之亦然。

(3)句式：构建168个常见定义型、预测型、因果型、关联型、评价型等类别的学术观点句的常用句式库，并用正则表达式的方式存储起来，计算机构建句式库，将各个句子的内容与句式库进行匹配，形成句式特征。句式特征名为“pattern_no”，其中no表示句式的编号为1到168，特征值为0或1。

(4)长度：句子的长度(长度即为字数)是一个连续型数值变量，对各个句子的数值变量进行统计，就可以得到各个句子的长度特征。将各个句子的长度使用min-max标准化方法进行归一化处理，处理结果为0到1之间的数值。将其离散化为10个特征，特征名为“length_no”,no取值为1到10。计算机计算每个句子的长度(字数)，将该句子的长度所在组的特征值设置为1，其余为0。

上述4个特征是摘要和全文都有的特征，而对于全文而言，句子在文内位置的特征和重要性特征也会影响识别效果，现分别介绍如下：

(5)文内位置：句子的文内位置为一个连续型变量，对文内所有句子的标点符号的标识符进行统计；当统计到预设的标点符号的标识符时，说明该标识符是一个句子的结尾符，如：句号、问号、感叹号等等，则加1，并对该句子进行标记。以此类推，就可以获得文内所有句子的标号，即各句子在文内的位置。对一篇文章的各个句子的文内位置使用min-max标准化方法进行归一化处理，其中min为1，max为该文句子总数，将其离散化为10组，特征名为“pos it ion_no”,no取值为1到10。将该句子文内位置所在组的特征值设置为1，其余为0。

(6)重要性：在抽取式文摘的生成中，使用textrank算法对句子的重要性进行计算并排序，使用基于词袋模型的BM25相似性算法对句间相似性关系进行计算，使用随机游走的方式计算各个句子的权重。该权重值使用min-max标准化方法进行归一化处理，处理结果为0到1之间的数值。将其离散化为10个特征，特征名为“textrank_no”,no取值为1到10。将该句子归一化后的textrank权重所在组的特征值设置为1，其余为0。

将上述特征以ARFF文件形式存储在文件夹中，以便后续使用WEKA的SVM(SupportVector Machine)分类器对该文件进行训练。

这里需要说明的是，步骤S110和步骤S120的顺序可以互换，即可以先建立隐性观点句识别模型，再建立显性词数据库，本发明实施例对识别模型和数据库的建立顺序不做制约。

步骤S130：通过显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果；

对本步骤进行具体说明，通过显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果，包括：

通过显性词数据库对待识别的句子进行显性词匹配；

若待识别的句子中匹配到显性词数据库中的显性词，则待识别的句子为显性观点句。

若待识别的句子中没有匹配到显性词数据库中的显性词，则说明待识别的句子不是显性观点句，需要再通过隐性观点句识别模型对待识别的句子进行识别，以判断待识别的句子是否为隐性观点句。

步骤S140：通过隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果。

具体地，通过隐性观点句识别模型对待识别的句子进行识别，如果待识别的句子符合学术观点句的相关特征，则标记为隐性学术观点句；如果待识别的句子不符合学术观点句的相关特征，则标记为非隐性学术观点句。

这里需要说明的是，步骤S130和步骤S140的顺序可以互换，即可以先通过隐性观点句识别模型对待识别的句子进行识别，再通过显性词数据库对待识别的句子进行显性词匹配。在这种情况下，若待识别的句子不符合学术观点句的相关特征，则需要再通过显性词数据库对待识别的句子进行显性词匹配，以判断待识别的句子是否为显性观点句，本发明实施例对隐性观点句识别模型和显性词数据库的使用顺序不做制约。

参见图2，这里给出一个具体的实施例，具体地，以信息资源管理和科学学领域的学术论文为测试用例

1、随机选取信息资源管理和科学学领域各50篇学术论文(摘要和全文)；

2、使用分句工具对这两个领域共100篇学术论文的摘要和全文进行分句；

3、从论文摘要和全文的句子中提取词汇特征、核心词、核心词性、句式、长度等特征，另外，还对全文中的句子提取文内位置、重要性等特征，并以ARFF文件的形式存储在文件夹中，使用WEKA的SVM(Support Vector Machine)分类器对该文件进行训练，得到隐性观点句识别模型；

4、通过显性词数据库，对所有句子进行提示词匹配，识别出337句显性学术观点句。经人工校验后，识别的准确率为82.5％；

5、利用隐性观点句识别模型对未识别为显性学术观点句的6842个句子，进行特征判断，识别出3639个隐性学术观点句。经人工校验后，识别的准确率为79.2％。

参见图3，本发明实施例提供的识别学术观点句的系统，包括：

数据库建立模块100，用于建立显性词数据库；

识别模型建立模块200，用于建立隐性观点句识别模型；

具体地，识别模型建立模块200，包括：

训练词获取单元，用于获取识别模型训练词；

训练单元，用于对训练词进行训练，得到隐性观点句识别模型。

为了提高学术观点句的识别准确性，识别模型建立模块200，还包括：

划分单元，用于使用10折交叉的方式划分训练集与测试集。

在本实施例中，训练词至少为以下任意一个：

匹配模块300，用于通过显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果；

具体地，匹配模块300，具体用于通过显性词数据库对待识别的句子进行显性词匹配；若待识别的句子中匹配到显性词数据库中的显性词，则判断待识别的句子为显性观点句。若待识别的句子中没有匹配到显性词数据库中的显性词，则说明待识别的句子不是显性观点句，需要再通过隐性观点句识别模型对待识别的句子进行识别，以判断待识别的句子是否为隐性观点句。

识别模块400，用于通过隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果。

具体地，识别模块400，具体用于通过隐性观点句识别模型对待识别的句子进行识别，如果待识别的句子符合学术观点句的相关特征，则标记为隐性学术观点句；如果待识别的句子不符合学术观点句的相关特征，则标记为非隐性学术观点句。

这里需要说明的是，匹配模块300和识别模块400的执行顺序可以互换，即可以先通过隐性观点句识别模型对待识别的句子进行识别，再通过显性词数据库对待识别的句子进行显性词匹配。在这种情况下，若待识别的句子不符合学术观点句的相关特征，则需要再通过显性词数据库对待识别的句子进行显性词匹配，以判断待识别的句子是否为显性观点句，本发明实施例对匹配模块300和识别模块400的执行顺序不做制约。

【技术效果】

1、针对学术论文中的显性观点句，搜集全面的学术观点句提示词，构建显性词数据库，并使用正则表达式的形式对其进行表示，形成显性学术观点句的匹配模板。利用显性学术观点句的匹配模板学术论文中的对待识别的句子进行显性词匹配，从而得到显性观点句匹配结果。另外，预先从摘要和全文中提取学术观点句和非学术观点句的相关语言特征，并使用机器学习中文本分类的方式对语句类型(学术观点句和非学术观点句)和句子特征之间的关系进行建模，得到隐性观点句识别模型。利用隐性观点句识别模型对待识别的句子进行识别，得到隐性观点句识别结果，有效解决了现有技术中只能通过人工方式从学术文本中识别出学术观点句的技术问题，实现了高效地从大量的学术文本中识别出学术观点句的技术效果。

2、在对训练词进行训练的过程中，使用10折交叉的方式划分训练集与测试集，提高了学术观点句的识别准确性。

3、本发明实施例系统地分析了词汇(否定词、程度词、条件短语、其他)、文内位置、句式、句法核心词(词性)、长度、重要性等特征，在学术观点句识别中的效果，提出了一种基于支持向量机的特征训练方法，形成学术观点句识别模型，从而提高了识别的准确性。

本发明实施例提供了一种基于机器学习的学术观点句识别的方法，该方法旨在从现有中文论文(摘要和全文)中识别出其中的显性表达和隐性表达的学术观点句，将观点挖掘的应用范畴从产品评论、网络舆情拓展到学术研究，从摘要和全文中全面地识别出显性学术观点句和隐性学术观点句，将学术文献转化为观点层面的表示方式，提高了学术信息资源的利用效率，促进了学术信息交流，满足了学术观点评价与审查需求，辅助学者开展科研活动，使其更专注于创新性工作。本发明实施例提供的采用机器学习的方式识别学术观点句比人工识别效率高，节省了学者的阅读的时间，且该方法对学术观点句识别的准确率高达79％。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种识别学术观点句的方法，其特征在于，包括：

建立显性词数据库；

建立隐性观点句识别模型；

2.如权利要求1所述的方法，其特征在于，所述建立隐性观点句识别模型，包括：

获取识别模型训练词；

对所述训练词进行训练，得到所述隐性观点句识别模型。

3.如权利要求2所述的方法，其特征在于，在所述对所述训练词进行训练的过程中，使用10折交叉的方式划分训练集与测试集。

4.如权利要求2所述的方法，其特征在于，所述训练词至少为以下任意一个：

5.如权利要求1-4中任一项所述的方法，其特征在于，所述通过所述显性词数据库对待识别的句子进行显性词匹配，得到显性观点句匹配结果，包括：

6.一种识别学术观点句的系统，其特征在于，包括：

数据库建立模块，用于建立显性词数据库；

识别模型建立模块，用于建立隐性观点句识别模型；

7.如权利要求6所述的系统，其特征在于，所述识别模型建立模块，包括：

训练词获取单元，用于获取识别模型训练词；

8.如权利要求7所述的系统，其特征在于，所述识别模型建立模块，还包括：

划分单元，用于使用10折交叉的方式划分训练集与测试集。

9.如权利要求7所述的系统，其特征在于，所述训练词至少为以下任意一个：

10.如权利要求6-9中任一项所述的系统，其特征在于，所述匹配模块，具体用于通过所述显性词数据库对所述待识别的句子进行显性词匹配；若所述待识别的句子中匹配到所述显性词数据库中的显性词，则判断所述待识别的句子为显性观点句。