CN104462032A

CN104462032A - 一种用于语言材料的数据识别与提取方法

Info

Publication number: CN104462032A
Application number: CN201410829863.XA
Authority: CN
Inventors: 李冬; 庄勋; 李漓
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2015-03-25

Abstract

本发明公开了一种用于语言材料的数据识别与提取方法,包括：根据原始数据文件中的内容对应的计算机字符编码，将组成所述内容的数据单元进行第一次转换处理，生成预处理数据单元；根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系，将所述预处理数据单元进行第二次转换处理，生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元；对所述规范化的数据单元进行提取。本发明的方法操作简单、运算速度快。

Description

一种用于语言材料的数据识别与提取方法

技术领域

本发明涉及计算机数据处理领域，特别涉及一种用于语言材料的数据识别与提取方法。

背景技术

随着数据信息的爆炸式发展，大数据时代已经来临，数据的数量、类型、书写的等方面的差异，使得数据日益复杂，这给计算机识别与提取数据带来了障碍。作为数据信息中一个重要分支，语言文字是人类进行信息交流和文化传承的工具，经过无数代人继承、发展、进化而自然形成。词汇是语言表达组成的最小单位，也是语言研究、语言教学的核心内容。随着科学技术的发展，词汇研究由简单的单个词汇的语义研究、使用研究开始进入词汇宏观的数据分析研究，学界近年来开始关注词汇数据信息的挖掘、研究、利用，以了解不同地区、不同阶层、不同时代人群用词特点，提高对语言规律的再认识和语言发展趋势。由此一批学者试图通过系列研究，来形成了一批分析词汇特征、差异和规律的测定指标，类似医院做肝功能检查，做血液检查一样，通过不同指标的数值高低判断被测材料的总体规模、用词特征、易读性、适用对象等等，得出客观的、科学的判断。

但是，语言文字材料词汇本身数量就十分的庞大，语句的变化、词汇的变形极其复杂，所以国际上目前尚没有这类词汇数据测定的专用工具，给词汇数据分析带来极大的困难，致使该类研究停滞不前。本发明依据外语特点，实现了多步骤智能识别、提取词汇，获得基础数据，并在此基础上进行多指标的测定，为词汇研究建立了一个便捷的通用平台，并填补了该领域测试手段的空白。

发明内容

针对现有技术存在的各种缺陷，本发明提出了一种用于语言材料的数据识别与提取方法。该方法包括：

(1)根据原始数据文件中的内容对应的计算机字符编码，将组成所述内容的数据单元进行第一次转换处理，生成预处理数据单元；

(2)根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系，将所述预处理数据单元进行第二次转换处理，生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元；

(3)对所述规范化的数据单元进行提取。

通过对数据文件进行规范化处理，使其成为计算机可是别的数据信息，再进行提取基础数据，并在此基础上进行多指标的测定，此方法操作简单、运算速度快。

在一些实施方式中，所述步骤(1)包括：

将所述原始数据的数据单元中的有效数据信息用计算机对应的字符编码；

将所述原始数据的数据单元中的无效数据信息用计算机预设的字符编码；

根据所述计算机对应或者预设的字符编码，滤除所述原始数据的数据单元中的无效数据信息，生成仅保留所述原始数据的数据单元的有效数据信息。

在一些实施方式中，所述步骤(2)包括：

针对与所述原始数据文件相应的数据库中的数据单元在预处理数据单元中进行全文检索；

根据所述数据库中的数据单元属性的相互关系，将所述预处理数据单元用与所述数据库中的数据单元进行替换处理；

生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元。

在一些实施方式中，所述原始数据文件是书写不规范的外文材料，所述外文包括：英文、法文、德文、西班牙文和俄文。

在一些实施方式中，所述相互关系包括：字符大小写关系、惯用语句关系、词汇缩写关系、动词的时态语态变化关系、词汇的英/美拼写差异关系、词汇的比较级关系、名词的单/复数变化关系。

在一些实施方式中，根据所述步骤(3)提取的内容包括：词汇总量、单词量、词汇构成、词汇频率、词汇覆盖率、词表覆盖率、词汇密度、容词率。

在一些实施方式中，所述词汇覆盖率是通过外文材料中词表包含的单词量与外文材料中词汇的单词量的比值确定的。

在一些实施方式中，所述词表覆盖率是通过外文材料中词表包含的单词量与所述外文材料中词表词量的比值确定的。

在一些实施方式中，所述词汇密度是通过外文材料中实意词量与所述外文材料词汇量的比值确定的。

在一些实施方式中，所述容词率是通过外文材料的词汇量与所述外文材料词汇总量的比值确定的。

通过对数据文件进行规范化处理，使其成为计算机可是别的数据信息，再进行提取基础数据，并在此基础上进行多指标的测定，此种智能信息识别、提取的方法操作简单、运算速度快。

附图说明

图1为本发明一实施方式的语言材料数据识别、提取程序流程图；

图2为本发明一实施方式的数据信息智能识别、提取程序流程图；

图3为本发明一实施方式的无效字符的滤除流程图；

图4为本发明一实施方式的语句关系矫正程序流程图；

图5为本发明一实施方式的词汇提取与原型转换流程图；

图6为本发明一实施方式的词汇表覆盖率分布散点图。

具体实施方式

下面结合附图对本发明作进一步详细的说明。

图1示意性地显示了本发明一实施方式的语言材料数据识别、提取程序流程图。其中具体包括以下步骤：

1、根据原始数据文件中的内容对应的计算机字符编码，将组成所述内容的数据单元进行第一次转换处理，生成预处理数据单元。其中，原始数据文件包括：英文、法文、德文、西班牙文和俄文数据。

具体而言：将所述原始数据的数据单元中的有效数据信息用计算机对应的字符编码；将所述原始数据的数据单元中的无效数据信息用计算机预设的字符编码；根据所述计算机对应或者预设的字符编码，滤除所述原始数据的数据单元中的无效数据信息，生成仅保留所述原始数据的数据单元的有效数据信息。

2、根据与所述原始数据文件相应的数据库中的数据单元属性的相互关系，将所述预处理数据单元进行第二次转换处理，生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元。其中，所述相互关系包括：字符大小写关系、惯用语句关系、词汇缩写关系、动词的时态语态变化关系、词汇的英美拼写差异关系、词汇的比较级关系、名词的单复数变化关系。

具体而言：针对与所述原始数据文件相应的数据库中的数据单元在预处理数据单元中进行全文检索；根据所述数据库中的数据单元属性的相互关系，将所述预处理数据单元用与所述数据库中的数据单元进行替换处理；生成与所述原始数据文件相应的数据库中的数据单元相一致的规范化的数据单元。

3、在上述规范化的基础数据基础上对数据单元进行提取并进行统计。其中，提取的内容包括：词汇总量、单词量、词汇构成、词汇频率、词汇覆盖率、词表覆盖率、词汇密度、容词率。数据提取后就可以对语言材料进行一些列的科学测定，例如：词频测定、容词率测定、词汇构成测定、词汇覆盖率测定、词汇密度测定、此表覆盖率测定等。

图2示意性地显示了本发明一实施方式的数据信息智能识别、提取程序流程图。以下仅以英文为例，法文、德文、西班牙文均类同，俄文为双字节字母文字，单词起始点和终止点的识别与英文类似，文字过滤可参考中文字符处理方法。运用所掌握的语言学规律，对外文材料中出现的不规则句型、语句、词汇进行多步骤识别、处理，最终获得系列基础数据。参照图2，其处理流程为：文本字符小写转换→字符过滤→规则矫正→“’”和“.”后连空格者转换成空格→相连多空格符转换为单空格符→词汇提取→原型转换/入库→排序。

图3为本发明一实施方式的无效字符的滤除流程图。其中，所测材料含有各种符号以及夹杂的控制符或其他ASCII码这些干扰杂文字符，特别是含有非关注语种文字，通常的文字统计程序对这些无效字符一并进行统计，其数据只适合出版部门用于稿费计算，但在英语词汇研究中使用这类数据将使信息严重失真，必须予以滤除。参照图3，滤除的方法是对文本进行ASCII码逐个过滤，例如小写字母a-z的ASCII码值97-122，符号“.”的ASCII码值为46，空格的ASCII码值为32,“,”的ASCII码值为39，“-”的ASCII码值为45，这些符号均给予保留，其他符号全部用空格符取代。

图4为本发明一实施方式的语句关系矫正程序流程图。其中，通过语句关系矫正程序将影响词汇准确计数的惯用语句的改写与自适应技术。如：It's going to be a lot of fun.自动改写成：It is going to be a lot of fun.该句词数应为9，不能允许为8，同时避免了it’s为单词的可能。参照图4，程序设计一个规则库，将所有这类情况存入库中，在对材料处理时将规则库中的情况逐一在被测材料中全文检索，然后自动替换。

字母大小写的处理在进行词汇识别时，字母大小写也会干扰识别过程(如标题、语句的起始词等)，解决方法是在词汇识别前全部转换成小写，而词汇信息库的检索关键词字段一律使用小写，对于常用人名、地名，在词汇信息库的原型词字段放置首字母大写单词。如：China(原文形式)→china(识别形式)→China(转换后形式)。

缩写词的处理，缩写词的处理原理：在去除句号“.”时已考虑到缩写词问题，采用仅去除其后带空格的“.”，词汇信息库的检索关键词做适应性改动，如U.S.的检索形式为“u.s”，原型转换后为“U.S.”.

其它如：3th；o’clock等均采用与规则库配合，在词汇信息库的原型词汇字段进行自适应处理。1th、2th、3th等等众多，在字母过滤时其首的阿拉伯数字已被滤除，因此凡提取到“th”时就自动转换成“Xth”；o’clock类的处理是配合规则库，将o’clock先改写为o-clock，然后对提取到的“o-clock”就自动转换成o’clok。

图5为本发明一实施方式的词汇提取与原型转换流程图。其中，词汇的识别提取，英语的变化形式繁多大致包括有：

1)动词的时态语态的变化，如：

abandon，abandons，abandoned，abandoning

blend，blended，blent，blends，blending

2)词汇的英/美拼写差异，如：airplane/aeroplane

3)比较级，如：good，better，best；great，greater，greatest

4)名词的单/复数变化，如：looker-on，lookers-on；know-all，know-alls

通常基础数据如对这些词汇分别统计将造成数据的极大混乱，我们不能容许出现如下的数据统计现象(应该是：词汇do计数14)：

......

参照图5，解决方案是建立相关语种词汇信息库，包含的信息包括词汇的原型，各种变化形式的拼写，计算机编号，分级数据，词性，词频数据等等，采用程序提取单词后直接在词汇信息库检索，确定该单词的计算机编号，单词的原型，单词的等级等数据，将这些数据存入通用原始数据库中，然后依据计算机编号进行排序(或根据需要滤除重复)、统计。采用原型转换后巧妙地解决了词汇准确识别。

上述方法实现了计算机智能识别数据的过程，在数据识别的基础上进行数据提取，用于实现技术参数的计算。其中，技术参数是具有语言学技术意义的数据，其参数的发现、计算方法、反馈的信息都是科研工作者长期研究的结果。通过这些参数可以了解被测材料的易读性、用词特征和词汇使用规律。从而判断材料的基本价值，判断材料之间的差异，判断系列材料的词汇使用规律。获得的这些参数是对被测材料进行客观测量获得的数据。其中，具体的参数如下所述：

词汇总量：指待测材料中该语种词汇总量，词汇每出现一次都进行计数，它是待测材料文字规模的直接体现。如：DON QUIXOTE(堂·吉珂德)的词汇总量为404423个词汇。

词汇量：指待测材料中该语种包含的单词量，即不重复计数的词汇量，它是表示出现词汇。如：DON QUIXOTE(堂·吉珂德)的词汇量为12016个词汇。

词汇构成：不同文化层次的人群掌握的词汇量是不同的，因此通常根据词汇的难度(教学要求)分成若干层次，如国外常见的朗文核心词表等，本系统根据国内教学特色将词汇分成小学词汇(人教版)、初中词汇(人教版)、高中词汇(人教版)、大学一般词汇(2007年版，后同)、大学较高词汇、大学更高词汇、超纲词汇(解建和教授提供，后同)、高级词汇8个等级，对待测材料进行词汇构成分类后可以了解材料的易读性和适用范围，同时为同类材料的差异比较提供了客观分析数据。

词频：指某一词汇在被测材料中出现的次数。词汇词频越高表明该词汇适用越频繁，掌握它的人越多，也越容易。教学上通过词频研究可以筛选、确认不同阶段的教学词汇，在语言研究中则常用来研究不同时代、不同地域、不同人群用词的差异。

词汇覆盖率：指以某一个词表作为基准，待测材料的词汇被此表覆盖的比例，资料认为覆盖率在90％以上者，掌握基准词表者可以读懂待测材料。具体计算公式如下：

词汇覆盖率＝(材料中词表包含的词量÷材料词量)╳100％

如大学英语四级考试的高中词汇覆盖率仅为65％左右，大学词汇覆盖率90％以上。

词表覆盖率：指以某一个词表作为基准，待测材料的词汇占该词的比例。在教材编写中，应该对教材整体做一个大致的衡量，即教材内容是否能完成目标词表的任务可用该参数测量。

具体计算公式如下：

词表覆盖率＝(材料中词表包含的词量÷词表词量)╳100％

词汇密度：是用来估计材料信息密度的测试指标。

具体计算公式如下：

词汇密度＝(材料中实意词量÷材料词汇量)╳100％

容词率：是用于测试用词效率的指标。

具体公式如下：

容词率＝(材料的词汇量÷材料词汇总量)╳100％

本发明方法尤其适用于对外语材料中词汇的智能识别与提取，因为外语材料句型复杂、词汇庞大、词汇变化繁杂，准确识别与提取词汇十分困难，所以至今尚没有用于语言词汇研究的基础数据、词汇学指标测定工具。本发明采用多步骤的过滤、识别和转换，智能化成功解决了所指定语种的词汇识别提取难题，并测定待测材料系列关键指标，为研究相关语言材料的词汇分析创造了条件。利用该平台可以进行各种材料的词汇分析，开展这些指标正常值范围研究、差异研究、建立数学模型、探索规律。

该发明测试词汇指标速度极快，效率极高，如英语原版小说DONQUIXOTE(堂·吉珂德)词汇总量在40余万词汇，测试时长只需15分钟左右(视计算机硬件配置高低略有差别)。

图6为本发明一实施方式的1990-2006年词汇表覆盖率分布散点图。其中：1990.6.-2006.6.英语四级考试17份试卷词表覆盖率数据见下表，散点图观察发现随着时间的推移，词表覆盖率数值逐渐增加，且散点分布呈直线趋势，故对上述资料进行直线相关假设检验，推断成立则数学建模计算直线回归方程式并计算词表覆盖率理论值。

下表为1990-2006英语四级考试17份试卷词表覆盖率测试数据，具体数据见表1：

表1

参照图6，与上述表1对应的1990-2006年词汇表覆盖率分布散点图的直线相关分析为：γ＝0.839，t＝5.972，P<0.0001，直线相关高度显著。用回归方程表示为：Y＝-3.222+0.002X，其中，X为年份，Y为词表覆盖率理论值。

通过本发明的模型，可以测试训练用模拟试卷的词表覆盖率，观察实测值与理论值之间的偏差，偏差过大则试卷质量可能存在问题。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种用于语言材料的数据识别与提取方法，包括：

(3)对所述规范化的数据单元进行提取。

2.根据权利要求1所述的方法，其特征在于，所述步骤(1)包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤(2)包括：

4.根据权利要求1-3任一项权利要求所述的方法，其特征在于，所述原始数据文件是书写不规范的外文材料，所述外文包括：英文、法文、德文、西班牙文和俄文。

5.根据权利要求4所述的方法，其特征在于，所述相互关系包括：字符大小写关系、惯用语句关系、词汇缩写关系、动词的时态语态变化关系、词汇的英美拼写差异关系、词汇的比较级关系、名词的单复数变化关系。

6.根据权利要求4所述的方法，其特征在于，根据所述步骤(3)提取的内容包括：词汇总量、单词量、词汇构成、词汇频率、词汇覆盖率、词表覆盖率、词汇密度、容词率。

7.根据权利要求6所述的方法，其特征在于，所述词汇覆盖率是通过外文材料中词表包含的单词量与外文材料中词汇的单词量的比值确定的。

8.根据权利要求6所述的方法，其特征在于，所述词表覆盖率是通过外文材料中词表包含的单词量与所述外文材料中词表词量的比值确定的。

9.根据权利要求6所述的方法，其特征在于，所述词汇密度是通过外文材料中实意词量与所述外文材料词汇量的比值确定的。

10.根据权利要求6所述的方法，其特征在于，所述容词率是通过外文材料的词汇量与所述外文材料词汇总量的比值确定的。