CN105786971A - 一种面向国际汉语教学的语法点识别方法 - Google Patents

一种面向国际汉语教学的语法点识别方法 Download PDF

Info

Publication number
CN105786971A
CN105786971A CN201610073550.5A CN201610073550A CN105786971A CN 105786971 A CN105786971 A CN 105786971A CN 201610073550 A CN201610073550 A CN 201610073550A CN 105786971 A CN105786971 A CN 105786971A
Authority
CN
China
Prior art keywords
grammar
points
text
analyzed
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610073550.5A
Other languages
English (en)
Other versions
CN105786971B (zh
Inventor
宋继华
彭炜明
王宁
宋天宝
胞央央
郭冬冬
朱雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hanya Tiancheng Education Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610073550.5A priority Critical patent/CN105786971B/zh
Publication of CN105786971A publication Critical patent/CN105786971A/zh
Application granted granted Critical
Publication of CN105786971B publication Critical patent/CN105786971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向国际汉语教学的语法点识别方法,涉及汉语语法点识别技术领域。该方法,依据语法大纲确定语法知识库,结合对国际汉语教材的标注分析,补充完善语法知识库,并面向教学实际选取待识别语法点,通过正则匹配技术实现待分析文本中语法点的自动识别。本发明没有考虑基于短语结构和依存结构的自动句法分析方法,而是基于教学实际,构建配套的资源,采用实用的工具,最终实现了面向国际汉语教学的语法点的自动识别,达到了满足国际汉语教学语法点识别需求的目标。

Description

一种面向国际汉语教学的语法点识别方法
技术领域
本发明涉及汉语语法点识别技术领域,尤其涉及一种面向国际汉语教学的语法点识别方法。
背景技术
语法是实现语言交际功能的规则,是正确理解和表达意思的基础,在汉语国际推广的过程中,掌握汉语语法规律始终是教学的重点与难点。
目前,语法特征信息的提取依赖于句式结构的整体格局,而在削弱了句式结构整体性的短语树和依存树这两大主流树库中,语法点的特征信息的提取变得极其困难,语法教学资源建设在规范化、规模化、信息化、自动化等方面均无法满足当前国际汉语教学的领域需求。
因此解决面向国际汉语教学的语法点自动识别问题,对国际汉语教学的推广及教学效果的提升有着重要意义。
发明内容
本发明的目的在于提供一种面向国际汉语教学的语法点识别方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种面向国际汉语教学的语法点自动识别的方法,包括如下步骤:
S1,依据语法大纲确定语法知识库;
S2,通过对国际汉语教材的标注分析,结合S1中确定的所述语法知识库,获取面向教学实际选取的待识别语法点;
S3,结合所述待识别语法点,通过正则匹配技术对待分析文本进行语法点自动识别,获取所述待分析文本中包含的语法点。
优选地,S1中,按照“语法类→分级语法项→语法点”的层级组织确定所述语法知识库框架,所述语法类包括:语素、实词、虚词、短语、句子成分、单句、句式、动作的态和复句,每个所述语法类下设置若干所述分级语法项,所述分级语法项最终细化为若干所述语法点,最终形成若干层级的所述语法知识库框架。
优选地,所述层级为5级,所述语法类、分级语法项、语法点共715条,所述待识别语法点为10358条。
优选地,S2包括如下步骤:
S201,对国际汉语教材进行标注分析,获取所述国际汉语教材的语法点;
S202,根据所述国际汉语教材的语法点对所述语法知识库进行扩充和补足,得到更新的语法知识库;
S203,判断所述更新的语法知识库中的语法点在教学实际中的讲解频次是否达到了设定值,如果是,则作为待识别语法点,并执行S3,否则,结束。
优选地,S202具体为:将所述国际汉语教材的语法点与所述语法知识库中的语法点进行比对,找出所述语法知识库中,不存在的语法点、描述语不同的已有语法点以及等级设置不一致的语法点,然后对所述语法知识库进行扩充和补足。
优选地,S3包括如下步骤:
S301,对待分析文本按照断句标点进行切句,得到切分好的句子;
S302,对每一个所述待识别语法点,编写正则表达式,得到所有所述待识别语法点的正则表达式;
S303,利用S302中编写的所述待识别语法点的正则表达式循环匹配S301中得到的所述切分好的句子,自动识别所述待分析文本中包含的语法点;
其中,S301和S302的顺序可对调。
优选地,S303包括如下步骤:
①将所有成语的正则表达式用“或”合为一条正则表达式后进行匹配,若匹配成功,则将所捕获内容作为相应成语的语法点加入语法点结果集,否则,跳至第②步;
②将所有惯用语的正则表达式用“或”合为一条正则表达式后进行匹配,若匹配成功,则将所捕获内容作为相应惯用语的语法点加入所述语法点结果集,否则,跳至第③步;
③使用除成语和惯用语之外的其他所述待识别语法点的正则表达式进行匹配,若匹配成功,则将该条语法点加入到所述语法点结果集,否则,跳至第④步;
④检验是否所有的所述待识别语法点的正则表达式均已经使用过,若是,则执行第⑤步,否则跳至第③步;
⑤检验所述语法点结果集是否为空,若不为空,则得到自动识别的所述待分析文本中包含的语法点,否则,结束。
优选地,S3之后还包括步骤:S4,根据不同的教学等级,或,根据TF-IDF统计方法,计算每个所述待分析文本中包含的语法点的TF-IDF-W值,依据TF-IDF-W的值对所述待分析文本中包含的语法点进行推荐。
优选地,S4包括如下步骤:
①检验用户是否输入等级信息,若是,则根据用户输入的所述等级信息推荐所述待分析文本中包含的语法点;否则,执行第②步;
②计算每个所述待分析文本中包含的语法点的TF值;
③计算每个所述待分析文本中包含的语法点的IDF值;
④计算每个所述待分析文本中包含的语法点的W值;
⑤计算每个所述待分析文本中包含的语法点的TF-IDF-W值;
⑥按照所述待分析文本中包含的语法点的TF-IDF-W值从高到低的顺序,对所述待分析文本中包含的语法点进行推荐。
优选地,
a)TF值的计算公式如下:
tf i , j = n i , j Σ k = 1 t n k , j
其中:
ni,j:语法点ti在待分析文本dj中出现的次数;
待分析文本dj中所有语法点出现的次数之和,t为语法点的条目总数;
b)IDF值的计算公式如下:
idf i = idf i s e n t + idf i d o c = l o g | S | | { j : t i ∈ s j } | + l o g | D | | { k : t i ∈ d k } |
其中:
|S|:教材库中的句子总数;
|{j:ti∈sj}|:教材库中出现的语法点ti的句子数,为防止分母为零,对其进行加1操作;
|D|:教材库中的课文总数;
|{k:ti∈dk}|:教材库中出现语法点ti的课文数,为防止分母为零,对其进行加1操作;
c)W值的计算公式如下:
w i , j = m i , j Σ k = 1 t m k , j
其中:
mi,j:待分析文本dj中出现的语法点ti在教材库课后讲解中被讲解的次数;
待分析文本dj中所有语法点在教材库课后讲解中被讲解的次数之和,t为语法点的条目总数;
d)TF-IDF-W值的计算公式如下:
(tf-idf-w)i,j=log(tfi,j+1)*idfi+log(wi,j+1)。
本发明的有益效果是:本发明实施例提供的面向国际汉语教学的语法点识别方法,依据语法大纲确定语法知识库,结合对国际汉语教材的标注分析,补充完善语法知识库,并面向教学实际选取待识别语法点,通过正则匹配技术实现待分析文本中语法点的自动识别。本发明没有考虑基于短语结构和依存结构的自动句法分析方法,而是基于教学实际,构建配套的资源,采用实用的工具,最终实现了面向国际汉语教学的语法点的自动识别,达到了满足国际汉语教学语法点识别需求的目标。
附图说明
图1是面向国际汉语教学的语法点识别流程图;
图2面向国际汉语教学的语法知识库框架示意图;
图3国际汉语教材标注示意图;
图4面向国际汉语教学的语法知识库正则表达式示意图;
图5是语法点自动识别效果示例图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
完全语法信息的自动提取依赖于中文信息处理的自动句法分析,不可能一蹴而就;语法点的动态获取不必苛求齐全,需结合教学实际(教学目标和学生水平等)来决定哪些是有效的。基于以上几点分析,解决面向国际汉语教学的语法点自动识别问题,关键不在于技术本身的精度如何,而在于找到针对特定需求的合适工具以及配套的基础资源,很多时候简单的技术反而更实用。
面向国际汉语教学的语法知识库构建以及语法点自动识别方法的研究,既要考虑语法体系的系统性,也要考虑具体的教学特点及教学要求。知识库中语法项目的设置及定级需依据一定的语法体系,在国际汉语教学领域,由于国家汉办的推广,《汉语水平等级标准与语法等级大纲》及《新汉语水平考试大纲》发挥着主导与示范作用,但在将其转化为面向教学的语法知识库并提供语法点自动识别功能的过程中,仍然存在语法项目的选择、规则的类推等具体问题。语法知识库中需自动识别的语法项目必需带有一定的教学特点,符合特定的教学要求,面向相应等级的教学对象,否则任何句子都有语法,泛泛的语法项也就没有意义了。
如图1所示,本发明实施例提供了一种面向国际汉语教学的语法点自动识别的方法,包括如下步骤:
S1,依据语法大纲确定语法知识库;
S2,通过对国际汉语教材的标注分析,结合S1中确定的所述语法知识库,获取面向教学实际选取的待识别语法点;
S3,结合所述待识别语法点,通过正则匹配技术对待分析文本进行语法点自动识别,获取所述待分析文本中包含的语法点。
其中,如图2所示,S1中,按照“语法类→分级语法项→语法点”的层级组织确定所述语法知识库框架,所述语法类包括:语素、实词、虚词、短语、句子成分、单句、句式、动作的态和复句,每个所述语法类下设置若干所述分级语法项,所述分级语法项最终细化为若干所述语法点,最终形成若干层级的所述语法知识库框架。
所述层级可以为5级,所述语法类、分级语法项、语法点可以为715条,所述待识别语法点为10358条。
其中,语法点的层级构建过程中,可以根据实际情况或需求进行组织,比如,可以为2级,也可以为5级,即每个语法类可以是:有的语法类包含2级分级语法项与语法点,有的语法类包含5级分级语法项与语法点,或其他级数的分级语法项与语法点。本实施例中,语法知识库的最深级数为5级,整个语法知识库中共包含715条语法类、分级语法项及语法点,经过扩充、补足与选取,得到的待识别语法点为10358条。
本实施例中,S2可以包括如下步骤:
S201,对国际汉语教材进行标注分析,获取所述国际汉语教材的语法点;
S202,根据所述国际汉语教材的语法点对所述语法知识库进行扩充和补足,得到更新的语法知识库;
S203,判断所述更新的语法知识库中的语法点在教学实际中的讲解频次是否达到了设定值,如果是,则作为待识别语法点,并执行S3,否则,结束。
其中,S201中,可以采用本领域的常规技术手段进行实施。
S203中,可以根据实际情况设置语法点的讲解频次,而通过与语法点的讲解频次的设定值进行比较,可以更好的结合教学实际,使确定的待识别的语法点更符合教学实际,从而使得到的语法点识别结果能更好的服务于教学实际。
本实施例中,S202具体为:将所述国际汉语教材的语法点与所述语法知识库中的语法点进行比对,找出所述语法知识库中,不存在的语法点、描述语不同的已有语法点以及等级设置不一致的语法点,然后对所述语法知识库进行扩充和补足。
采用上述方法,可以使语法知识库中的语法点更符合国际汉语教材,进而更好的服务于国际汉语教学实际。
本实施例中,S3可以包括如下步骤:
S301,对待分析文本按照断句标点进行切句,得到切分好的句子;
S302,对每一个所述待识别语法点,编写正则表达式,得到所有待识别语法点的正则表达式;
S303,利用S302中编写的所述待识别语法点的正则表达式循环匹配S301中得到的所述切分好的句子,自动识别所述待分析文本中包含的语法点;
其中,S301和S302的顺序可对调。
本实施例中,待识别语法点共为10358条,则编写的正则表达式为10358条。
其中,S301中,断句标点符号可以为:。?!,对待分析文本按照断句标点进行切句,具体可以包括以下几种切分情况:
(a)当文本遇到换行符时切分句子;
(b)当文本遇到如下标点符号:。?!:;?!:;时切分句子;
(c)对于(b)中的标点,若其后再接如下标点符号:”’))]』」,则切分在后一组标点之后。
综合以上,切句的正则表达式可以为:
\n|(?<=[。?!:;?!:;])(?![”’))\]』」])|(?<=[。?!?!…—][”’))\]』」])。
正则表达式是用某种模式去匹配一类字符串的一种公式,由若干普通字符和特殊字符(元字符)构成。普通字符包括大小写的字母、数字和汉字等,元字符指一些具有特殊含义的专用字符。一些常用的元字符及其功能描述可以参见下表。
S302中,正则表达式编写过程需注意的关键点包括:
①通过“\p{han}”保证语法点省略部分不能跨越标点等非汉字字符,如下表所示:
所属语法项 语法点 正则表达式
单句-句类-疑问句-反问句 难道……吗 难道(?!是)\p{han}+吗?
复句-转折复句 不过……而已 不过\p{han}+而已
复句-转折复句 不过……罢了 不过\p{han}+罢了
②通过正向否定预查“(?!pattern)”及反向否定预查搜索“(?<!pattern)”排除前后出现的字符,所排除的字符通过教材语料库统计得到,如下表所示:
所属语法项 语法点 正则表达式
单句-句类-疑问句-反问句 何不……(呢) (?<![为如有])何不\p{han}+?
句式-比较句 像……一样 (?<!好)像\p{han}+一样
复句-转折复句 尽管……,却…… 尽管\p{han}+[,;](?!但是|可是)\p{han}*却
③通过正向肯定预查“(?=pattern)”及反向肯定预查搜索“(?<=pattern)”限定前后出现的字符,所限定的字符通过教材语料库统计得到,如下表所示:
④通过修饰匹配次数“{n,m}”限定语法点识别结果,所限定的次数通过教材语料库统计得到,如下表所示:
⑤利用标点符号提高识别准确率,如下表所示:
⑥通过锚位字符“^”和“$”限定识别位置,如下表所示:
⑦通过反向引用“\1,\2......”识别语法点中重叠部分,如下表所示:
本实施例中,S303可以包括如下步骤:
①将所有成语的正则表达式用“或”合为一条正则表达式后进行匹配,若匹配成功,则将所捕获内容作为相应成语的语法点加入语法点结果集,否则,跳至第②步;
②将所有惯用语的正则表达式用“或”合为一条正则表达式后进行匹配,若匹配成功,则将所捕获内容作为相应惯用语的语法点加入所述语法点结果集,否则,跳至第③步;
③使用除成语和惯用语之外的其他所述待识别语法点的正则表达式进行匹配,若匹配成功,则将该条语法点加入到所述语法点结果集,否则,跳至第④步;
④检验是否所有的所述待识别语法点的正则表达式均已经使用过,若是,则执行第⑤步,否则跳至第③步;
⑤检验所述语法点结果集是否为空,若不为空,则得到自动识别的所述待分析文本中包含的语法点,否则,结束。
本实施例中,S3之后还可以包括步骤:S4,根据不同的教学等级,或,根据TF-IDF统计方法,计算每个所述待分析文本中包含的语法点的TF-IDF-W值,依据TF-IDF-W的值对所述待分析文本中包含的语法点进行推荐。
其中,TF-IDF算法是一种用来评估某个词或短语对于一个文章集或一个语料库的其中一篇文章的重要程度的方法。它的主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,对该文章的重要程度较高。
TF-IDF算法有多种计算形式,其中一种计算形式为:
1)词频(TermFrequency,TF)表示某给定词条在某文章中出现的频率,用来衡量该文章中此词条的重要程度,计算公式为:
tf i , j = n i , j &Sigma; k n k , j
其中:
ni,j:词条ti在文章dj中出现的次数;
文章dj中所有词条出现的次数之和。
2)逆向文档频率(InverseDocumentFrequency,IDF)用来衡量某词条的普遍重要性,计算公式为:
idf i = l o g | D | | { j : t i &Element; d j } |
其中:
|D|:语料库中的文章总数;
|{j:ti∈dj}|:包含词条ti的文章数目。
3)最终该词条对该文章的TF-IDF值为:
tf-idfi,j=tfi,j*idfi
根据上述TF-IDF统计方法,设计TF-IDF-W值的计算方法。
通过上述步骤,可以对自动识别得到的待分析文本中包含的语法点进行推荐,从而使推荐的语法点能够更好地服务于教学实际。
其中,S4可以包括如下步骤:
①检验用户是否输入等级信息,若是,则根据用户输入的所述等级信息推荐所述待分析文本中包含的语法点;否则,执行第②步;
②计算每个所述待分析文本中包含的语法点的TF值;
③计算每个所述待分析文本中包含的语法点的IDF值;
④计算每个所述待分析文本中包含的语法点的W值;
⑤计算每个所述待分析文本中包含的语法点的TF-IDF-W值;
⑥按照所述待分析文本中包含的语法点的TF-IDF-W值从高到低的顺序,对所述待分析文本中包含的语法点进行推荐。
其中,
a)TF值的计算可以采用如下公式:
tf i , j = n i , j &Sigma; k = 1 t n k , j
其中:
ni,j:语法点ti在待分析文本dj中出现的次数;
待分析文本dj中所有语法点出现的次数之和,t为语法点的条目总数;
b)IDF值的计算可以采用如下公式:
idf i = idf i s e n t + idf i d o c = log | S | | { j : t i &Element; s j } | + log | D | | { k : t i &Element; d k } |
其中:
|S|:教材库中的句子总数;
|{j:ti∈sj}|:教材库中出现语法点ti的句子数,为防止分母为零,对其进行加1操作;
|D|:教材库中的课文总数;
|{k:ti∈dk}|:教材库中出现语法点ti的课文数,为防止分母为零,对其进行加1操作;
c)W值的计算可以采用如下公式:
w i , j = m i , j &Sigma; k = 1 t m k , j
其中:
mi,j:待分析文本dj中出现的语法点ti在教材库课后讲解中被讲解的次数;
待分析文本dj中所有语法点在教材库课后讲解中被讲解的次数之和,t为语法点的条目总数;
d)TF-IDF-W值的计算可以采用如下公式:
(tf-idf-w)i,j=log(tfi,j+1)*idfi+log(wi,j+1)。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:本发明实施例提供的面向国际汉语教学的语法点识别方法,依据语法大纲确定语法知识库,结合对国际汉语教材的标注分析,补充完善语法知识库,并面向教学实际选取待识别语法点,通过正则匹配技术实现待分析文本中语法点的自动识别。本发明没有考虑基于短语结构和依存结构的自动句法分析方法,而是基于教学实际,构建配套的资源,采用实用的工具,最终实现了面向国际汉语教学的语法点的自动识别,达到了满足国际汉语教学语法点识别需求的目标。
具体实施例:
本发明实施例提供了一种面向国际汉语教学的语法点识别方法,具体包括如下步骤:
1.依据语法大纲确定语法知识库框架。
根据《汉语水平等级标准与语法等级大纲》及《新汉语水平考试大纲》,兼顾体系的完整性与教学的实用性,将语法按“语法类→分级语法项→语法点”的层级组织,最终获得包含语素、实词、虚词、短语、句子成分、单句、句式、动作的态、复句9个语法类的语法知识库框架。每个语法类下分设若干分级语法项,包含若干层级,最深层级为5级,最终细化为若干语法点,语法类、项、点共计715条。其中成语、惯用语两项下的语法点根据中文信息处理领域已有词汇知识库进行扩展,其他句式下的语法点根据国际汉语教材标注语料库进行补足。知识库框架示意如图2,高层框架结构可参见下表。
2.结合对国际汉语教材的标注分析,面向教学实际选取待识别语法点。
通过对国际汉语教材的标注分析,建立教材语法点与语法知识库之间的对应关系,找出知识库中未列的语法点、已有语法点的不同描述语以及语法点等级设置不一致的情况,对其进行必要的扩充和补足。同时根据教材实际情况,统计各语法点的讲解频次,确定哪些语法具有自动识别的实际需求。具体方法是删除大纲中纯知识性的语法点以及大规模教材标注中讲解频次为零的非积累性广义语法点。前者如“实词的分类”、“单句的分类”;后者如实词类的“普通名词”和“普通动词”、单句类的“动词主谓句”、“陈述句”等。教材标注示意如图3。
3.通过正则匹配技术进行语法点自动识别,可以通过如下步骤进行实施:
1)对待分析文本按照“。?!”等断句标点切句;
2)利用正则表达式循环匹配切分好的句子,获取其中包含的语法点,包括如下步骤:
(a)语法点正则表达式的编写:
编写正则表达式是一个反复验证和修改的迭代过程,需根据匹配结果的反馈逐步优化,从而获得完善的模式规则,如图4所示。
b)语法点的匹配
考虑到成语、惯用语的数量较多且模式固定,为了保证程序运行效率,对这两类进行了特殊处理:将这两类语法点分别采用“或”的逻辑运算合并为一条规则后再去进行匹配,同时捕获匹配内容。每个句子的具体匹配流程如下(可参见图1):
①将所有成语用“或”合为一条正则表达式后进行匹配,并捕获内容,若不成功,跳至第③步;
②将所捕获内容作为相应成语的语法点加入结果集;
③将所有惯用语用“或”合为一条正则表达式后进行匹配,并捕获内容,若不成功,跳至第⑤步;
④将所捕获内容作为相应惯用语的语法点加入结果集;
⑤使用其他语法点的正则表达式匹配,若不成功,跳至第⑦步;
⑥将该条语法点加入到结果集;
⑦检验是否所有正则表达式已经过匹配,若不是,跳至第⑤步;
⑧检验结果集是否为空,若不为空,则得到语法点匹配结果。
4.针对不同的教学等级,基于TF-IDF统计方法设计推荐算法TF-IDF-W,进行语法点识别结果的推荐。
a)TF值的计算公式如下:
tf i , j = n i , j &Sigma; k = 1 t n k , j
其中:
ni,j:语法点ti在待分析文本dj中出现的次数;
待分析文本dj中所有语法点出现的次数之和,t为语法点的条目总数。
b)IDF值的计算公式如下:
idf i = idf i s e n t + idf i d o c = l o g | S | | { j : t i &Element; s j } | + l o g | D | | { k : t i &Element; d k } |
其中:
|S|:教材库中的句子总数;
|{j:ti∈sj}|:教材库中出现语法点ti的句子数。为防止分母为零,对其进行加1操作;
|D|:教材库中的课文总数;
|{k:ti∈dk}|:教材库中出现语法点ti的课文数。为防止分母为零,对其进行加1操作。
c)W值的计算公式如下:
w i , j = m i , j &Sigma; k = 1 t m k , j
其中:
mi,j:待分析文本dj中出现的语法点ti在教材库课后讲解中被讲解的次数;
待分析文本dj中所有语法点在教材库课后讲解中被讲解的次数之和,t为语法点的条目总数。
d)TF-IDF-W值的计算公式如下:
(tf-idf-w)i,j=log(tfi,j+1)*idfi+log(wi,j+1)
e)具体推荐流程如下(可参见图1):
①检验用户是否输入等级信息,若不是,跳至第③步;
②根据用户输入等级选取语法点识别结果;
③计算各语法点的TF值;
④计算各语法点在相应等级教材文本中的IDF值;
⑤提取各语法点的W值;
⑥计算各语法点的TF-IDF-W值;
⑦按TF-IDF-W从高到低的顺序推荐语法点识别结果。
具体应用例一:
鉴于新闻素材是国际汉语教材编写的重要内容来源之一,代表了最真实、最鲜活的现代汉语,选择新闻类文本作为本实施例提供的方法的输入语料。
考虑到新闻阅读属于高级阶段的汉语教学内容,将自动获取范围设在教学语法知识库中难度偏高的语法点上(如成语、复句和固定搭配等)。从404篇Web新闻(平均长度:1246.5字)文本中共获取语法点4576个,经过人工校验,有误的为17个,准确率达到99.6%。
其中一篇关于“中国科考船雪龙号遭遇奇异自然现象”新闻报道自动获取语法点的部分结果显示如图5所示。
具体应用例二:
以《进阶式对外汉语系列教材·成功之路·冲刺篇·第2册》第九课《人与动物》中的课文《一个永远忘不了的真实故事》为例,进一步对本发明的实施方式和有益效果进行说明。
课文原文如下表:
按照本发明实施例提供的方法,对该课文依次进行切句、语法点自动识别、TF-IDF-W值计算,得到的语法点识别结果见下表,表中列出了识别出的语法点名称、等级、句子、TF值、IDF值、W值以及TF-IDF-W值,同一等级的语法点按照TF-IDF-W值从高到低的顺序排列。
可见,采用本发明实施例提供的语法点自动识别方法,对课文文本进行语法点自动识别,达到了较高的语法点自动识别准率;语法点识别结果覆盖范围较广,种类多样;同时,根据大规模国际汉语教材的统计规律进行了语法点推荐排序,使之更符合教学实际。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (10)

1.一种面向国际汉语教学的语法点自动识别的方法,其特征在于,包括如下步骤:
S1,依据语法大纲确定语法知识库;
S2,通过对国际汉语教材的标注分析,结合S1中确定的所述语法知识库,获取面向教学实际选取的待识别语法点;
S3,结合所述待识别语法点,通过正则匹配技术对待分析文本进行语法点自动识别,获取所述待分析文本中包含的语法点。
2.根据权利要求1所述的语法点自动识别的方法,其特征在于,S1中,按照“语法类→分级语法项→语法点”的层级组织确定所述语法知识库框架,所述语法类包括:语素、实词、虚词、短语、句子成分、单句、句式、动作的态和复句,每个所述语法类下设置若干所述分级语法项,所述分级语法项最终细化为若干所述语法点,最终形成若干层级的所述语法知识库框架。
3.根据权利要求2所述的语法点自动识别的方法,其特征在于,所述层级为5级,所述语法类、分级语法项、语法点共715条,所述待识别语法点为10358条。
4.根据权利要求1所述的语法点自动识别的方法,其特征在于,S2包括如下步骤:
S201,对国际汉语教材进行标注分析,获取所述国际汉语教材的语法点;
S202,根据所述国际汉语教材的语法点对所述语法知识库进行扩充和补足,得到更新的语法知识库;
S203,判断所述更新的语法知识库中的语法点在教学实际中的讲解频次是否达到了设定值,如果是,则作为待识别语法点,并执行S3,否则,结束。
5.根据权利要求4所述的语法点自动识别的方法,其特征在于,S202具体为:将所述国际汉语教材的语法点与所述语法知识库中的语法点进行比对,找出所述语法知识库中,不存在的语法点、描述语不同的已有语法点以及等级设置不一致的语法点,然后对所述语法知识库进行扩充和补足。
6.根据权利要求1所述的语法点自动识别的方法,其特征在于,S3包括如下步骤:
S301,对待分析文本按照断句标点进行切句,得到切分好的句子;
S302,对每一个所述待识别语法点,编写正则表达式,得到所有所述待识别语法点的正则表达式;
S303,利用S302中编写的所述待识别语法点的正则表达式循环匹配S301中得到的所述切分好的句子,自动识别所述待分析文本中包含的语法点;
其中,S301和S302的顺序可对调。
7.根据权利要求6所述的语法点自动识别的方法,其特征在于,S303包括如下步骤:
①将所有成语的正则表达式用“或”合为一条正则表达式后进行匹配,若匹配成功,则将所捕获内容作为相应成语的语法点加入语法点结果集,否则,跳至第②步;
②将所有惯用语的正则表达式用“或”合为一条正则表达式后进行匹配,若匹配成功,则将所捕获内容作为相应惯用语的语法点加入所述语法点结果集,否则,跳至第③步;
③使用除成语和惯用语之外的其他所述待识别语法点的正则表达式进行匹配,若匹配成功,则将该条语法点加入到所述语法点结果集,否则,跳至第④步;
④检验是否所有的所述待识别语法点的正则表达式均已经使用过,若是,则执行第⑤步,否则跳至第③步;
⑤检验所述语法点结果集是否为空,若不为空,则得到自动识别的所述待分析文本中包含的语法点,否则,结束。
8.根据权利要求1所述的语法点自动识别的方法,其特征在于,S3之后还包括步骤:S4,根据不同的教学等级,或,根据TF-IDF统计方法,计算每个所述待分析文本中包含的语法点的TF-IDF-W值,依据TF-IDF-W的值对所述待分析文本中包含的语法点进行推荐。
9.根据权利要求8所述的语法点自动识别的方法,其特征在于,S4包括如下步骤:
①检验用户是否输入等级信息,若是,则根据用户输入的所述等级信息推荐所述待分析文本中包含的语法点;否则,执行第②步;
②计算每个所述待分析文本中包含的语法点的TF值;
③计算每个所述待分析文本中包含的语法点的IDF值;
④计算每个所述待分析文本中包含的语法点的W值;
⑤计算每个所述待分析文本中包含的语法点的TF-IDF-W值;
⑥按照所述待分析文本中包含的语法点的TF-IDF-W值从高到低的顺序,对所述待分析文本中包含的语法点进行推荐。
10.根据权利要求9所述的语法点自动识别的方法,其特征在于,
a)TF值的计算公式如下:
tf i , j = n i , j &Sigma; k = 1 t n k , j
其中:
ni,j:语法点ti在待分析文本dj中出现的次数;
待分析文本dj中所有语法点出现的次数之和,t为语法点的条目总数;
b)IDF值的计算公式如下:
idf i = idf i s e n t + idf i d o c = log | S | | { j : t i &Element; s j } | + log | D | | { k : t i &Element; d k } |
其中:
|S|:教材库中的句子总数;
|{j:ti∈sj}|:教材库中出现的语法点ti的句子数,为防止分母为零,对其进行加1操作;
|D|:教材库中的课文总数;
|{k:ti∈dk}|:教材库中出现语法点ti的课文数,为防止分母为零,对其进行加1操作;
c)W值的计算公式如下:
w i , j = m i , j &Sigma; k = 1 t m k , j
其中:
mi,j:待分析文本dj中出现的语法点ti在教材库课后讲解中被讲解的次数;
待分析文本dj中所有语法点在教材库课后讲解中被讲解的次数之和,t为语法点的条目总数;
d)TF-IDF-W值的计算公式如下:
(tf-idf-w)i,j=log(tfi,j+1)*idfi+log(wi,j+1)。
CN201610073550.5A 2016-02-02 2016-02-02 一种面向国际汉语教学的语法点识别方法 Active CN105786971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610073550.5A CN105786971B (zh) 2016-02-02 2016-02-02 一种面向国际汉语教学的语法点识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610073550.5A CN105786971B (zh) 2016-02-02 2016-02-02 一种面向国际汉语教学的语法点识别方法

Publications (2)

Publication Number Publication Date
CN105786971A true CN105786971A (zh) 2016-07-20
CN105786971B CN105786971B (zh) 2019-06-11

Family

ID=56402346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610073550.5A Active CN105786971B (zh) 2016-02-02 2016-02-02 一种面向国际汉语教学的语法点识别方法

Country Status (1)

Country Link
CN (1) CN105786971B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817033A (zh) * 2018-07-11 2019-05-28 北京美高森教育科技有限公司 语言学习机教练方法及系统
CN111311459A (zh) * 2020-03-16 2020-06-19 宋继华 一种面向国际汉语教学的交互式出题方法及系统
CN111427991A (zh) * 2020-02-27 2020-07-17 彭炜明 面向汉语词汇学习的分级词表动态生成方法和系统
CN111523299A (zh) * 2019-09-12 2020-08-11 宋继华 一种面向国际汉语教学的句子难度等级评定方法及系统
CN114997150A (zh) * 2022-05-25 2022-09-02 北京语言大学 基于国际中文教育教学语法知识资源研建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551103A (zh) * 2003-05-01 2004-12-01 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统
US20110047452A1 (en) * 2006-12-06 2011-02-24 Nuance Communications, Inc. Enabling grammars in web page frame
CN105161095A (zh) * 2015-07-29 2015-12-16 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1551103A (zh) * 2003-05-01 2004-12-01 用于语音识别和自然语言理解的具有合成统计和基于规则的语法模型的系统
US20110047452A1 (en) * 2006-12-06 2011-02-24 Nuance Communications, Inc. Enabling grammars in web page frame
CN105161095A (zh) * 2015-07-29 2015-12-16 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
彭炜明: "面向国际汉语教学的语法资源库建设", 《中国远程教育》 *
彭炜明等: "汉语传统语法及其在中文信息处理中的应用展望", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817033A (zh) * 2018-07-11 2019-05-28 北京美高森教育科技有限公司 语言学习机教练方法及系统
CN111523299A (zh) * 2019-09-12 2020-08-11 宋继华 一种面向国际汉语教学的句子难度等级评定方法及系统
CN111523299B (zh) * 2019-09-12 2023-09-22 宋继华 一种面向国际汉语教学的句子难度等级评定方法及系统
CN111427991A (zh) * 2020-02-27 2020-07-17 彭炜明 面向汉语词汇学习的分级词表动态生成方法和系统
CN111311459A (zh) * 2020-03-16 2020-06-19 宋继华 一种面向国际汉语教学的交互式出题方法及系统
CN111311459B (zh) * 2020-03-16 2023-09-26 宋继华 一种面向国际汉语教学的交互式出题方法及系统
CN114997150A (zh) * 2022-05-25 2022-09-02 北京语言大学 基于国际中文教育教学语法知识资源研建方法及装置
CN114997150B (zh) * 2022-05-25 2024-02-02 北京语言大学 基于国际中文教育教学语法知识资源研建方法及装置

Also Published As

Publication number Publication date
CN105786971B (zh) 2019-06-11

Similar Documents

Publication Publication Date Title
CN110968700B (zh) 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN106650943B (zh) 基于人工智能的辅助写作方法和装置
US9424524B2 (en) Extracting facts from unstructured text
CN111475623A (zh) 基于知识图谱的案件信息语义检索方法及装置
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN107590119B (zh) 人物属性信息抽取方法及装置
CN106202039B (zh) 基于条件随机场的越南语组合词消歧方法
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN109213998A (zh) 中文错字检测方法及系统
Tschuggnall et al. Enhancing authorship attribution by utilizing syntax tree profiles
Fauziah et al. Lexicon Based Sentiment Analysis in Indonesia Languages: A Systematic Literature Review
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN111274354B (zh) 一种裁判文书结构化方法及装置
Malhar et al. Deep learning based Answering Questions using T5 and Structured Question Generation System’
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
Contractor et al. Labeling educational content with academic learning standards
Gayen et al. Automatic identification of Bengali noun-noun compounds using random forest
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Suriyachay et al. Thai named entity tagged corpus annotation scheme and self verification
Sirajzade et al. The LuNa Open Toolbox for the Luxembourgish Language
Baishya et al. Present state and future scope of Assamese text processing
Wu et al. Research on intelligent retrieval model of multilingual text information in corpus
Halvani Register & Genre Seminar: Towards Intrinsic Plagiarism Detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201224

Address after: 100085 room 31017, No.3 Shuangqing Road, Haidian District, Beijing

Patentee after: Beijing Hanya Tiancheng Education Technology Co.,Ltd.

Address before: 100875, 19, Xinjie street, Haidian District, Beijing

Patentee before: Song Jihua

Patentee before: Peng Weiming

Patentee before: Wang Ning

Patentee before: Song Tianbao

Patentee before: Guo Dongdong

TR01 Transfer of patent right