CN109086272B - 句型识别方法及其系统 - Google Patents

句型识别方法及其系统 Download PDF

Info

Publication number
CN109086272B
CN109086272B CN201810865005.9A CN201810865005A CN109086272B CN 109086272 B CN109086272 B CN 109086272B CN 201810865005 A CN201810865005 A CN 201810865005A CN 109086272 B CN109086272 B CN 109086272B
Authority
CN
China
Prior art keywords
sentence
sentence pattern
case
pattern
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810865005.9A
Other languages
English (en)
Other versions
CN109086272A (zh
Inventor
张新华
王朝选
柴鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lancoo Technology Co ltd
Original Assignee
Zhejiang Lancoo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lancoo Technology Co ltd filed Critical Zhejiang Lancoo Technology Co ltd
Priority to CN201810865005.9A priority Critical patent/CN109086272B/zh
Publication of CN109086272A publication Critical patent/CN109086272A/zh
Application granted granted Critical
Publication of CN109086272B publication Critical patent/CN109086272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及使用计算机对自然语言进行处理的领域,公开了一种句型识别方法及其系统,该方法中,对待识别的句子进行分节和分段,判断该句子中每一段是否包含案例句型相应段的特征,以及,是否存在案例句型相应段的负信息,其中特征的判断包括包括对关键词、标点符号、词性特征和空间信息的判断。通过这种正向特征匹配和负信息判断相结合的方案,大大提高了句型识别的准确率。

Description

句型识别方法及其系统
技术领域
本申请涉及使用计算机对自然语言进行处理的领域,特别涉及自然语言的句型识别。
背景技术
在英语句型教学、写作评估及翻译批改的过程中,过去一般使用人工标注的方式,获取英语句型的语法信息。随着人工智能技术在教育领域的应用,智能化教学成了未来教育技术的发展方向。教师智能备课、计算机自动批改作业、学生个性化学习等系统,在英语教学中逐步得到了应用。这就需要对英语句子中的组成成分进行自动分析和识别,包括对句子中各个单词、词组、短语、从句等特征进行智能识别,并在此基础上正确识别出句子的句型。正确识别句型有助于备课、组卷、个性化学习等各种具体应用。
目前虽然已经有了一些英语句型自动化识别技术,但这些现有技术存在句型识别准确率低的问题。
发明内容
本申请的目的在于提供一种句型识别方法及其系统,提高了句型识别的准确率。
为了解决上述问题,本申请公开了一种句型识别方法,包括:
对于每一个待识别的句子,根据逗号位置,将该句子分为至少一个小节;
对于每一个小节,根据关键词位置,将该小节分为至少一段;
依次将一个句子中每一个小节的每一段与预先设置的案例句型中每一个小节的每一段进行匹配,根据匹配结果确定该句子的句型;其中,该匹配包括:判断该句子中每一段是否包含该案例句型相应段的特征,和/或,是否存在该案例句型相应段的负信息。
在一优选例中,该将该句子分为至少一个小节的步骤之前,还包括以下步骤:
导入待识别文本;
对该待识别文本进行预处理,得到至少一个待识别的句子;
对该待识别的句子进行数字化处理。
在一优选例中,该预处理包括:根据预先设定的标点和特定字符的位置,将该待处理文本拆分为至少一个完整的待识别的句子。
在一优选例中,该预处理还包括:
识别该待识别的句子中的缩写词,并将识别出的缩写词替换为单词原形。
在一优选例中,该数字化处理进一步包括:
基于预先设置的词组库,识别该待识别的句子中包含的所有词组,并对识别出的词组在该待识别的句子中所担当的成分进行数字化标注;
基于预先设置的单词库,识别该待识别的句子中各单词的词性,并对识别出的单词词性进行数字化标注。
在一优选例中,该将该句子分为至少一个小节的步骤之前,还包括:
基于预先设置的关键词库,识别出该待识别的句子中包含的所有关键词;
根据识别出的所有关键词和该待识别的句子句末标点,与预先设置的案例句型库中的各案例句型进行匹配,初步筛选出包含该所有关键词和该句末标点的案例句型的集合,以该集合中的案例句型对该待识别的句子进行后续的句型识别。
在一优选例中,该判断该句子中每一段是否包含该案例句型相应段的特征的步骤中,该特征包括以下之一或其任意组合:
关键词,标点符号,词性特征,空间信息。
在一优选例中,该根据匹配结果确定该句子的句型,进一步包括:
如果一个句子中每一个小节的每一段与该案例句型中对应小节的对应段都匹配成功,则判定该句子匹配到该案例句型。
在一优选例中,该根据匹配结果确定该句子的句型,进一步还包括:
如果该句子匹配到一个案例句型,则将该案例句型作为该句子的句型;
如果该句子能够匹配到多个案例句型,则分别计算该句子与匹配的多个案例句型的关键特征匹配度;选择该关键特征匹配度最高的案例句型作为该句子的句型;如果最高的关键特征匹配度有多个,则该句子从属于多个句型。
在一优选例中,该关键特征匹配度的计算方法为:
关键特征匹配度=案例句型中关键词和标点符号的个数。
在一优选例中,该句型为英语句型。
本申请还公开了一种句型识别系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行该计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本申请实施方式中,对自然语言的一个句子进行分节和分段,通过对句子的分节匹配,可以排除长、难句中插入语对句型识别的干扰,有效去除信息冗余部分;通过对每一个小节逐段与案例句型对应小节的每一段进行正向匹配和负信息检测,可以准确地识别各种句型,提高了句型识别的准确率。根据本申请所设计的句型识别方法,结合句型中特征信息匹配与负信息的判断,可以使英语句型识别的准确率达到95%;而传统的句型识别方法是对句型中特征信息的匹配,句型识别准确率只能达到60%~70%。相比而言,本申请所设计的句型识别方法使句型识别的准确率得到很大的提升。
进一步地,预先将缩写词替换为单词原形,后续句型识别时只需要考虑单词原形即可,简化了后续处理。
进一步地,在正式句型识别之前,对词组在句子中担当的成分和单词的词性进行数字化标注,可以避免直接对具体的单词和词组进行处理,而是使用经数字化标注的成分和词性信息帮助句型识别,简化了句型识别的处理,提高了鲁棒性。
进一步地,基于预先设置的关键词库,识别出句子中所有关键词,根据这些关键词和句子的句末标点,与案例句型库中的各案例句型进行匹配,得到匹配的案例句型集合,可以预先排除不可能匹配的案例句型,在实践中,往往可以排除案例句型库中大多数的案例句型,大大减少后续精细匹配时的工作量。
进一步地,根据案例句型中关键词和标点符号的个数,可以在句子可以匹配到多个案例句型时以较小的计算量准确地挑选出最匹配的案例句型。
本申请的说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是本申请方法实施方式中一种句型识别方法的流程示意图
图2是本申请一个实施例中句型识别流程示意图
图3是本申请一个实施例中基于案例句型特征的精细匹配流程示意图
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明:
训练文本集:取材于多种自然语言教材、文章,原则上不包含任何单词错误、语法错误、表达错误的句子。
句型:简单地说是句子的结构类型,具体是指正确表达的句子内部各个单词、词组、短语、从句等在句子中所担当的成分及其排列顺序。
句子成分:是指单词、词组或从句等句子的组成部分。
关键词:是指句型中必不可少的单词。
词性:是指单词、词组等在句中可担当的词性成分。
空间信息:是指句型中必须存在但无特定要求或未明确指定的句子成分。
负信息:是指相对于句型中的有效特征而言,在该句型中错误使用的单词、标点符号、词性、空间信息等特征信息。
案例句型:是指根据标准例句、句法规则以及语言习惯等,从关键词、标点符号、词性特征、空间信息、负信息等多个维度对句子成分进行数字化标注,从而形成一种句型特征的数字化表达式。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请的实施方式作进一步地详细描述。
本申请第一实施方式涉及一种句型识别方法。图1是该句型识别方法的流程示意图。该句型识别方法包括以下步骤:
在步骤101中,对于每一个待识别的句子,根据逗号位置,将该句子分为至少一个小节。
此后进入步骤102,对于每一个小节,根据关键词位置,将该小节分为至少一个段。
此后进入步骤103,依次将一个句子中每一个小节的每一段与预先设置的案例句型中每一个小节的每一段进行匹配,根据匹配结果确定该句子的句型。其中,匹配的处理包括:将句子中的每一个小节依次与案例句型中对应的小节进行匹配,判断该句子中每一个小节的每一段是否包含案例句型中相应小节的相应段的所有必要特征,和/或,该句子中每一个小节的每一段是否存在案例句型中相应小节的相应段的负信息。特征可以是关键词,标点符号,词性特征,空间信息等等。如果对于一个句子中每一个小节的每一段与案例句型中对应小节的对应段都能够匹配成功,则判定该句子匹配到该案例句型。换句话说,案例句型的每一段一般都包含一个或多个特征,可能有负信息,也可能没有负信息;句子中每一个小节的每一段都会有案例句型的一段相对应(称为对应段),匹配成功意味着,对一个句子中的任一段,不但要包含对应段的所有必要特征,而且该段中不能存在对应段的任何负信息。
通过对自然语言的一个句子进行分节和分段,逐段与案例句型的每一段进行正向匹配和负信息检测,可以准确地识别各种句型,提高了句型识别的准确率。
可选地,在步骤101之前,还可以包括以下步骤:
第一、导入待识别文本。
第二、对待识别文本进行预处理,得到待识别的句子。可选地,预处理包括:根据预先设定的标点和特定字符的位置,将待处理文本拆分为至少一个完整的待识别的句子。可选地,预处理还可以包括:识别待识别的句子中的缩写词,并将识别出的缩写词替换为单词原形。预先将缩写词替换为单词原形,后续句型识别时只需要考虑单词原形即可,简化了后续处理。
第三、对待识别的句子进行数字化处理,可选地,数字化处理的步骤进一步包括以下子步骤:
子步骤1:基于预先设置的词组库,识别待识别的句子中包含的所有词组,并对识别出的词组在待识别的句子中所担当的成分进行数字化标注;
子步骤2:基于预先设置的单词库,识别待识别的句子中各单词的词性,并对识别出的单词词性进行数字化标注。
在正式句型识别之前,对词组在句子中担当的成分和单词的词性进行数字化标注,可以避免直接对具体的单词和词组进行处理,而是使用经数字化标注的成分和词性信息进行句型识别,简化了句型识别的处理,提高了鲁棒性。
可选地,在步骤101之前,还可以对案例句型进行初步筛选,一种优选的初步筛选方法包括:基于预先设置的关键词库,识别出待识别的句子中包含的所有关键词;根据识别出的所有关键词和待识别的句子句末标点,与预先设置的案例句型库中的各案例句型进行匹配,初步筛选出包含所有关键词和句末标点的案例句型的集合,以该集合中的案例句型对待识别的句子进行后续的句型识别。该初步筛选可以预先排除不可能匹配的案例句型,在实践中,往往可以排除案例句型库中大多数的案例句型,大大减少后续精细匹配时的工作量。除了上述初步筛选方法,在本申请的其他实施例中,还可以采用其它方法将不可能匹配的案例句型预先排除。
可选地,所述步骤103中根据匹配结果确定该句子的句型,还进一步包括:
如果句子匹配到一个案例句型,则将该案例句型作为该句子的句型;
如果句子能够匹配到多个案例句型,则分别计算该句子与匹配的多个案例句型的关键特征匹配度;选择关键特征匹配度最高的案例句型作为该句子的句型;如果最高的关键特征匹配度有多个,则该句子从属于多个句型。在一个实施例中,关键特征匹配度=案例句型中关键词和标点符号的个数。在其他实施例中,还可以用其他方式计算关键特征匹配度,例如,将句子与案例句型中的关键词进行匹配,对句子中包含的关键词数量与关键词之间的紧密程度进行加权计算,获取该句子与案例句型的关键特征匹配度,即设句子中包含该案例句型的关键词数量为m,句型的第一个关键词匹配到句子的第i个单词,句型最后一个关键词匹配到句子的第j个单词,则待识别句子与该句型的关键特征匹配度为mx/((j-i)y),其中x为关键词数量所占权重,y为关键词之间紧密程度所占权重。再如,可以只取关键词的个数作为关键特征匹配度。
本申请的句型识别方法可以用于多种自然语言,典型的是英语句型的识别,也完全可以适用于其他自然语言的句型识别,例如德语、法语、日语、汉语等等。
为了更好地理解本申请的实施方式,下面以英语为例,对句型识别方法的实施例进行说明。
本实施例涉及一种基于数字化句型特征库的英语句型自动识别方法,通过构建数字化英语句型识别特征库,对待识别英语句子中的组成成分进行分析,并进行数字化标注,将已标注的句子与句型特征库中的案例句型进行匹配,最终判断待识别句子的所属句型。具体实现步骤如下:
(一)预先构建英语句型识别特征库
1、输入训练文本集,对训练文本集中的句子成分进行分析,包括句子中的单词词性分析、词组分析、关键词分析、缩写词统计、句型负信息统计;
2、输出以下数字化句型特征库:
①案例句型结构库:包含案例句型结构特征的数字化标注、负信息标注
②关键词库:包含句型中的所有关键词
③单词库:包含单词原形、单词词性的数字化标注
④词组库:包含词组组成成分、词组可作为词性成分的数字化标注
⑤缩写词库:包含各缩写词的缩写形式及对应的单词原形
本申请中英语“案例句型结构库”的特点在于,案例句型结构的划分比较全面,通过对句型结构特征进行数字化标注,形成案例句型的数字化表达,使计算机能够识别出句子的句型,并准确反映句型特点。
案例句型的具体特征类别及数字化标注方式如下表所示:
Figure BDA0001750697080000101
(二)基于数字化句型特征库,对英语文本中的句型进行识别,具体实现步骤如图2所示:
步骤201,文本预处理
1.对导入的英语文本,按照文本中句号“.”、问号“?”、感叹号“!”、分号“;”以及回车换行等字符的位置,将文本拆分成若干个完整的句子;
2.判断句子中是否存在缩写词,若存在,读取“缩写词库”,将句子中的缩写词替换为单词原形。
步骤202,句子数字化处理
1.基于“词组库”,识别句子中包含的所有词组,并对其在句中所担当的成分进行数字化标注;
2.基于“单词库”,识别句子中各单词的词性,并对该单词的词性进行数字化标注;
3.输出句子成分数字化标注的结果如下所示:
第1个句子:<句子成分1,词性1><句子成分2,词性2>……<句子成分i,词性i><句末标点>
第2个句子:<句子成分1,词性1><句子成分2,词性2>……<句子成分j,词性j><句末标点>
第n个句子:<句子成分1,词性1><句子成分2,词性2>……<句子成分k,词性k><句末标点>
步骤203,基于数字化特征的句型匹配
基于本申请所设计的案例句型特征库,提出一种初步匹配与精细匹配相结合的句型识别方式,有效地节省了计算空间,提高识别速度。
句型匹配的具体流程如下:
1.基于关键词、句末标点的初步匹配
1)基于“关键词库”,识别出待识别句子中包含的所有关键词;
2)根据待识别句子中的关键词、句末标点信息,与“案例句型库”中的案例句型进行匹配,初步筛选出包含关键词和句末标点的案例句型集合A。
2.基于案例句型特征的精细匹配
其中,本申请的特点在于正匹配与反检测相结合的匹配方式,通过对句型中负信息的检测进一步排除了不可能存在的句型,极大地提高了句型识别的准确率。详细流程如图3所示。
1)根据待识别句子中逗号“,”的位置将句子拆分成小节,记为S={s1,s2,s3,...,si};
2)将初步匹配获得的集合A中的案例句型,根据句中逗号“,”的位置将句子拆分成小节,记为O={o1,o2,o3,...,oj};
3)从句首到句末,依次将待识别句子中的小节与案例句型的各小节进行匹配。例如,对sm和on小节进行匹配,若匹配成功,继续对sm+1和on+1进行匹配;若匹配失败,则选取待识别句子的下一小节sm+1与on进行匹配,重复上述流程,直至待识别句子与案例句型O中的各小节完全匹配成功,则判定该句子属于此案例句型,否则该句子不属于此案例句型。
4)各小节匹配过程如下:
a)基于案例句型中关键词的位置,分别对小节中关键词、句型特征、标点符号进行分段;
b)分段后,判断待识别句子是否满足案例句型的句型特征,具体方式如下:
①正匹配:依次将句子各段中的关键词、标点符号、词性特征、空间信息与案例句型特征进行匹配,判断该句子中是否包含案例句型中的特征信息;
②反检测:基于案例句型中标注的负信息,检测待识别句子中是否存在不允许出现的特征信息,若存在,则判定该句子一定不是该案例句型,若不存在,继续进行下一步判断。
c)若该小节中的所有分段都匹配成功,则该小节匹配成功,反之则匹配失败。
5)重复上述步骤,依次将待识别句子与集合A中的所有案例句型进行匹配。
步骤204,识别句子的句型
1.若该句子匹配到多个案例句型,则分别计算各案例句型的关键特征匹配度,
关键特征匹配度=案例句型中关键词和标点符号的个数;
2.选择匹配度最高的案例句型作为该句子的句型,若最高匹配度句型有多个,则认为该句子从属于多个句型。
本申请采用数字化特征库的方式对句型进行识别,有利于海量句型特征库的分类、信息的快速搜索以及句型的精确匹配,解决了句型识别过程中传统人工识别又慢又不全面的问题。
下面举一个具体的实例:
导入待识别的英语文本如下:
For 10 years David and I were the best of friends.Then we got to highschool and things started to change.We were in different classes,so we did'nhang out as much.It bothered me but I thought that we were both just growingup,and there were more friends where he came from.
步骤1,对文本进行预处理,将英语文章拆分成单个句子,并将句子中的缩写形式还原为原形。
1.将上述文章内容拆分成单个句子,拆分结果如下所示:
①For 10 years David and I were the best of friends.
②Then we got to high school and things started to change.
③We were in different classes,so we did'n hang out as much.
④It bothered me but I thought that we were both just growing up,andthere were more friends where he came from.
2.将句中的缩写形式还原为原形形式,并统一所有单词为小写形式:
①for 10 years david and i were the best of friends.
②then we got to high school and things started to change.
③we were in different classes,so we did not hang out as much.
④it bothered me but i thought that we were both just growing up,andthere were more friends where he came from.
步骤2,句子数字化处理
以下流程仅以步骤1得到的句③为例进行说明,其余句子的处理流程相同。1.识别句子③中的词组,并将词组中各单词拼接成一个特殊的句子成分;
we were in different classes,so we did not hang out as much.
2.将句中各单词和词组的词性进行数字化标注:
<we,PRP.><were,aux.|be.|VBD.><in,IN.|RB.><different,JJ.><classes,cn.|NN.|NNS.|VBI.|VBT.|VBZ.><,><so,JJ.|RB.|CC.><we,PRP.><did,aux.|VBD.|VBI.|VBT.><not,><hang out,VB.|VBI.|VBT.><as,><much,JJ.|PRP.|RB.><.>
步骤3,基于数字化特征的句型匹配
1、基于关键词、句末标点的初步匹配
1)句③中包含的关键词有:were、so、as;
2)句末标点符号为“.”;
3)基于关键词和句末标点符号进行句型匹配,初步筛选出的句型有(限于篇幅,这里只列出部分):
①句1,so+句2
②主语1+谓语+(...),(and)+so+情态动词/助动词/be动词+主语2
③As+从句其他部分,主句
……
2、基于案例句型特征的精细匹配
1)案例句型“句1,so+句2”的数字化特征为:C,so
-VB.&VBZ.&VBP.&VBI.&VBT.&VBD.&VBN.&VBG.&cv.&aux.&be.&M D.&RB.&IN.&JJ.S-it&as&or P.
2)根据句中逗号“,”的位置,分别对待识别句子和案例句型进行分节,结果如下:
待识别句子:
第1节:<we,PRP.><were,aux.|be.|VBD.><in,IN.|RB.><different,JJ.>
<classes,cn.|NN.|NNS.|VBI.|VBT.|VBZ.>
第2节:<so,JJ.|RB.|CC.><we,PRP.><did,aux.|VBD.|VBI.|VBT.><not,>
<hang+out,VB.|VBI.|VBT.><as,><much,JJ.|PRP.|RB.><.>
案例句型:
第1节:C
第2节:so
(-VB.&VBZ.&VBP.&VBI.&VBT.&VBD.&VBN.&VBG.&cv.&aux.&be.&MD.&RB.&IN.&JJ.S-it&as&or P.)
3)依次将待识别句子中的小节与案例句型的小节进行匹配,匹配流程如下:
a)根据案例句型特征,将待识别句子和案例句型中第1节分段,依次判断待识别句子是否满足案例句型的句型特征,具体流程如下:
对案例句型第1节进行分段:
Figure BDA0001750697080000151
匹配过程:
案例句型的1.1段只有一个特征C,其中C表示从句集合,待识别句子的1.1段与案例句型1.1段在从句集合中匹配的句型特征为:“PRP.be.[]”,可判断第1节匹配成功。
b)对待识别句子和案例句型中的第2节进行分段,依次判断待识别句子是否满足该案例句型的句型特征,具体流程如下:
根据案例句型中关键词、标点符号的位置,将第2节分成三段:
Figure BDA0001750697080000152
匹配过程:
将待识别句子的2.1段与案例句型的2.1段进行匹配,关键词均为“so”,第2.1段匹配成功;
将待识别句子的2.2段与案例句型的2.2段进行匹配,案例句型中包含特征S、P,其中S前面不能出现以下信息:VB.&VBZ.&VBP.&VBI.&VBT.&VBD.&VBN.&VBG.&cv.&aux.&be.&MD.&RB.&IN.&JJ;P前面不能出现以下信息:it&as&or。待识别句子中,<we,PRP.>与案例句型中的S匹配成功,且其前面没出现负信息;<did,aux.|VBD.|VBI.|VBT.>与案例句型中的P匹配成功,且前面没有出现负信息,第2.2段匹配成功;
将待识别句子的2.3段与案例句型的2.3段进行匹配,标点符号相同,第2.3段匹配成功。
由于第2节中各小段均匹配成功,可判断该句子与案例句型的第2节匹配成功。
4)若待识别句子与案例句型“句1,so+句2”,所有小节均匹配成功,则认为该句子属于该案例句型;若上述步骤中有任一处匹配失败,即认定该句子不属于此案例句型。
5)对于初步匹配获得的案例句型,依次按照上述步骤进行匹配,获取所有与该句子匹配成功的案例句型。
步骤4,识别句子的句型
若经过步骤3,该句子与多个案例句型匹配成功,则需要计算该句子与多个句型的关键特征匹配度,返回匹配度最高的案例句型。
关键特征匹配度具体计算方法如下:
句型“句1,so+句2”的数字化特征为:“C,so-VB.&VBZ.&VBP.&VBI.&VBT.&VBD.&VBN.&VBG.&cv.&aux.&be.&MD.&RB.&IN.&JJ.S-it&as&or P.”,该句型的关键特征为“so”、“,”、“.”,则该句子与此案例句型的关键特征匹配度为3。
本实例中用到的词性数字化标注表
Figure BDA0001750697080000171
需要说明的是,本领域技术人员应当理解,上述句型识别系统的实施方式中所示的各模块的实现功能可参照前述句型识别方法的相关描述而理解。上述句型识别系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本申请实施方式上述句型识别系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施方式的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施方式所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施方式不限制于任何特定的硬件和软件结合。
相应地,本申请实施方式还提供一种计算机存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。
此外,本申请实施方式还提供一种句型识别系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本申请提及的所有文献都在本申请中引用作为参考,就如同每一篇文献被单独引用作为参考那样。此外应理解,在阅读了本申请的上述讲授内容之后,本领域技术人员可以对本申请作各种改动或修改,这些等价形式同样落于本申请所要求保护的范围。

Claims (11)

1.一种句型识别方法,其特征在于,包括:
基于预先设置的关键词库,识别出待识别的句子中包含的所有关键词;根据识别出的所有关键词和所述待识别的句子句末标点,与预先设置的案例句型库中的各案例句型进行匹配,初步筛选出包含所述所有关键词和所述句末标点的案例句型的集合,以所述集合中的案例句型对所述待识别的句子进行后续的句型识别,其中,所述案例句型是指根据标准例句、句法规则以及语言习惯,从关键词、标点符号、词性特征、空间信息、负信息的多个维度对句子成分进行数字化标注,从而形成一种句型特征的数字化表达式;
对于每一个待识别的句子,根据逗号位置,将该句子分为至少一个小节;
对于每一个小节,根据关键词位置,将该小节分为至少一段;
依次将一个句子中每一个小节的每一段与预先设置的案例句型中每一个小节的每一段进行匹配,根据匹配结果确定该句子的句型;其中,所述匹配包括:判断该句子中每一段是否包含所述案例句型相应段的特征,和,是否存在所述案例句型相应段的负信息,其中,所述特征包括以下之一或其任意组合:关键词,标点符号,词性特征,空间信息;所述负信息是指相对于句型中的有效特征而言,在该句型中错误使用的单词、标点符号、词性、空间信息的特征信息;其中,通过正匹配与反检测相结合的匹配方式,利用对句型中负信息的检测进一步排除不可能存在的句型;并且,如果句子匹配到多个案例句型,则分别计算该句子与匹配的多个案例句型的关键特征匹配度;选择关键特征匹配度最高的案例句型作为该句子的句型,其中,使用以下方式计算关键特征匹配度:将句子与案例句型中的关键词进行匹配,对句子中包含的关键词数量与关键词之间的紧密程度进行加权计算,获取该句子与案例句型的关键特征匹配度,即设句子中包含该案例句型的关键词数量为m,句型的第一个关键词匹配到句子的第i个单词,句型最后一个关键词匹配到句子的第j个单词,则待识别句子与该句型的关键特征匹配度为mx/((j-i)y),其中x为关键词数量所占权重,y为关键词之间紧密程度所占权重。
2.根据权利要求1所述的句型识别方法,其特征在于,所述将该句子分为至少一个小节的步骤之前,还包括以下步骤:
导入待识别文本;
对所述待识别文本进行预处理,得到至少一个待识别的句子;
对所述待识别的句子进行数字化处理。
3.根据权利要求2所述的句型识别方法,其特征在于,所述预处理包括:根据预先设定的标点和特定字符的位置,将待处理文本拆分为至少一个完整的待识别的句子。
4.根据权利要求3所述的句型识别方法,其特征在于,所述预处理还包括:
识别所述待识别的句子中的缩写词,并将识别出的缩写词替换为单词原形。
5.根据权利要求2所述的句型识别方法,其特征在于,所述数字化处理进一步包括:
基于预先设置的词组库,识别所述待识别的句子中包含的所有词组,并对识别出的词组在所述待识别的句子中所担当的成分进行数字化标注;
基于预先设置的单词库,识别所述待识别的句子中各单词的词性,并对识别出的单词词性进行数字化标注。
6.根据权利要求1所述的句型识别方法,其特征在于,所述根据匹配结果确定该句子的句型,进一步包括:
如果一个句子中每一个小节的每一段与所述案例句型中对应小节的对应段都匹配成功,则判定该句子匹配到该案例句型。
7.根据权利要求6所述的句型识别方法,其特征在于,所述根据匹配结果确定该句子的句型,进一步还包括:
如果所述句子匹配到一个案例句型,则将该案例句型作为该句子的句型;
如果所述句子能够匹配到多个案例句型,则分别计算该句子与匹配的多个案例句型的关键特征匹配度;选择所述关键特征匹配度最高的案例句型作为该句子的句型;如果最高的关键特征匹配度有多个,则该句子从属于多个句型。
8.根据权利要求7所述的句型识别方法,其特征在于,所述关键特征匹配度的计算方法为:
关键特征匹配度=案例句型中关键词和标点符号的个数。
9.根据权利要求1至8中任一项所述的句型识别方法,其特征在于,所述句型为英语句型。
10.一种句型识别系统,其特征在于,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,用于在执行所述计算机可执行指令时实现如权利要求1至9中任意一项所述的方法中的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至9中任意一项所述的方法中的步骤。
CN201810865005.9A 2018-08-01 2018-08-01 句型识别方法及其系统 Active CN109086272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810865005.9A CN109086272B (zh) 2018-08-01 2018-08-01 句型识别方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810865005.9A CN109086272B (zh) 2018-08-01 2018-08-01 句型识别方法及其系统

Publications (2)

Publication Number Publication Date
CN109086272A CN109086272A (zh) 2018-12-25
CN109086272B true CN109086272B (zh) 2023-02-17

Family

ID=64833262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810865005.9A Active CN109086272B (zh) 2018-08-01 2018-08-01 句型识别方法及其系统

Country Status (1)

Country Link
CN (1) CN109086272B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
WO2013081301A1 (ko) * 2011-11-29 2013-06-06 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
CN105320644A (zh) * 2015-09-23 2016-02-10 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN106649294A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 一种分类模型的训练及其从句识别方法和装置
CN107145514A (zh) * 2017-04-01 2017-09-08 华南理工大学 基于决策树和svm混合模型的中文句型分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108021547B (zh) * 2016-11-04 2021-05-04 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206643A (zh) * 2006-12-21 2008-06-25 中国科学院计算技术研究所 一种融合了句型模板和统计机器翻译技术的翻译方法
WO2013081301A1 (ko) * 2011-11-29 2013-06-06 에스케이텔레콤 주식회사 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
CN102663129A (zh) * 2012-04-25 2012-09-12 中国科学院计算技术研究所 医疗领域深度问答方法及医学检索系统
CN105320644A (zh) * 2015-09-23 2016-02-10 陕西中医药大学 一种基于规则的自动汉语句法分析方法
CN106649294A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 一种分类模型的训练及其从句识别方法和装置
CN107145514A (zh) * 2017-04-01 2017-09-08 华南理工大学 基于决策树和svm混合模型的中文句型分类方法

Also Published As

Publication number Publication date
CN109086272A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN110489760B (zh) 基于深度神经网络文本自动校对方法及装置
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN105718586B (zh) 分词的方法及装置
CN110276069B (zh) 一种中国盲文错误自动检测方法、系统及存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN110147546B (zh) 一种英语口语的语法校正方法及装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN109213998A (zh) 中文错字检测方法及系统
CN112633001A (zh) 文本命名实体识别方法、装置、电子设备及存储介质
CN115688705A (zh) 一种基于自然语义的智能文档处理系统
Beeksma et al. Detecting and correcting spelling errors in high-quality Dutch Wikipedia text
Paripremkul et al. Segmenting words in Thai language using Minimum text units and conditional random Field
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN113127607A (zh) 文本数据标注方法、装置、电子设备及可读存储介质
Jayasuriya et al. Learning a stochastic part of speech tagger for sinhala
CN114970554B (zh) 一种基于自然语言处理的文档校验方法
CN111597302A (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN109241521B (zh) 一种基于引用关系的科技文献高关注度句子提取方法
CN111368547A (zh) 基于语义解析的实体识别方法、装置、设备和存储介质
CN109086272B (zh) 句型识别方法及其系统
CN110874408A (zh) 模型训练方法、文本识别方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant