CN110807316A - 一种汉语选词填空方法 - Google Patents

一种汉语选词填空方法 Download PDF

Info

Publication number
CN110807316A
CN110807316A CN201911045351.3A CN201911045351A CN110807316A CN 110807316 A CN110807316 A CN 110807316A CN 201911045351 A CN201911045351 A CN 201911045351A CN 110807316 A CN110807316 A CN 110807316A
Authority
CN
China
Prior art keywords
word
chinese
filling
blank
filled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911045351.3A
Other languages
English (en)
Other versions
CN110807316B (zh
Inventor
于江德
李学钰
王希杰
武宇浩
武肖菡
张春雨
常银辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anyang Normal University
Original Assignee
Anyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyang Normal University filed Critical Anyang Normal University
Priority to CN201911045351.3A priority Critical patent/CN110807316B/zh
Publication of CN110807316A publication Critical patent/CN110807316A/zh
Application granted granted Critical
Publication of CN110807316B publication Critical patent/CN110807316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种汉语选词填空方法,包括以下步骤:S1、从一给定的训练语料中获得词语特征及其出现的频次;S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;S5、输出填空的汉语词语结果。本发明将汉语自动选词填空采用概率统计的方法实现,计算简单、运算量小、选词填空准确率较高。

Description

一种汉语选词填空方法
技术领域
本发明属于计算机领域,具体涉及一种汉语选词填空方法。
背景技术
本发明主要解决的技术问题和应用需求有两方面。其一是让计算机参加高考语文答题的部分试题求解,针对高考语文中选词填空试题。正确使用词语是每年高考的一个必考点,其考查范围包括两个层面:一是正确理解词语,二是正确使用词语。即理解词语在具体语境中的意义,根据语境使用词语。
其二是辅助汉语初学者进行词语使用练习,包括中小学生的汉语选词填空练习和对外汉语教学中的词语使用练习,这些主要涉及同义词或形近词在汉语句子中的使用。
从检索查阅的学术论文、专利、论著来看,还没有汉语自动选词填空的相关技术和方法的公开发表。因此,一种汉语选词填空方法亟待提出。
发明内容
为解决让计算机自动选词填空问题,本发明提供一种汉语选词填空方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种汉语选词填空方法,包括以下步骤:
S1、从一给定的训练语料中获得词语特征及其出现的频次;
S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;
S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;
S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;
S5、输出填空的汉语词语结果。
作为本发明的一种优选技术方案,步骤S1包括:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照设定的样本窗口大小通过特征模板集扩展出上下文词语特征,统计求取上下文词语特征及其频次,训练语料是经过汉语分词后的汉语语料。
作为本发明的一种优选技术方案,步骤S2将待填空的汉语句子切分为词语序列W1W2……Wn
作为本发明的一种优选技术方案,对每个候选词语,计算待填空的汉语句子S所对应的词语序列条件下空白处填写该候选词语的条件概率;
一个句子具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,……,Fn),用F这个向量来表征这个句子;这样,条件概率的计算公式为:
直接计算条件概率P(W0|F)比较困难,而概率P(W0),P(F|W0)可以从训练数据集中求得;根据公式(1)将后验概率P(W0|F)的求解转换为先验概率P(W0),P(F|W0)的求解;又由于假设上下文特征F向量中的各特征相互独立,所以
Figure BDA0002253981240000031
由于P(F)对于所有不同的候选词语都相同,显然
Figure BDA0002253981240000032
其中,W是候选词语集合,W0表示当前词,在待填空的句子中就是待填入的词语,也就是句子的空白处;假设上下文特征F向量中的各特征相互独立,则有:
Figure BDA0002253981240000033
而概率P(W0),P(W-2|W0),……,P(W1W2|W0)可以通过步骤S1从训练语料中得到的上下文词语特征及频次求得;
Figure BDA0002253981240000034
Figure BDA0002253981240000035
计算过程中由于数据稀疏现象,采用Good-Turing估计进行数据平滑处理;
最终,选择条件概率最大的词语作为填入汉语句子空白处的词语。
本发明的有益效果是:本发明将汉语自动选词填空采用概率统计的方法实现,计算简单、运算量小、选词填空准确率较高。
附图说明
图1是本发明一种汉语选词填空方法的工作流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
为了达到本发明的目的,如图1所示,在本发明的其中一种实施方式中提供一种汉语选词填空方法,包括以下步骤:
S1、从一给定的训练语料中获得词语特征及其出现的频次;
S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;
S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;
S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;
S5、输出填空的汉语词语结果。
具体的,步骤S1包括:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照设定的样本窗口大小通过特征模板集扩展出上下文词语特征,统计求取上下文词语特征及其频次,训练语料是经过汉语分词后的汉语语料。
其中,特征选择的关键在于根据具体的任务选择合适的词语特征,包括选取上下文范围和设定特征模板集,也就是样本窗口大小设定和特征模板集的选定。
通常情况下,上下文的选取是基于当前词左右一定范围进行的,这个固定的范围被称为窗口;窗口中的上下文实质是一个特定样本,所以将该窗口称为样本窗口;可以限定样本窗口是“5词窗口”,即使用当前词前后各两个词作为上下文,也可以限定样本窗口是“7词窗口”,即使用当前词前后各三个词作为上下文。本发明采用“5词窗口”作为样本窗口。
特征模板集是特征模板的集合,特征模板的主要功能是定义上下文中某些特定位置的语言成分或信息与某类待预测事件的关联情况。由于本发明是根据一个汉语句子中空白处的上下文来确定该空的应填词语,因此就由该空前后出现的词、词的组合信息及这些信息出现的位置来确定上下文词语特征。习惯上,特征模板可以看作是对一组上下文词语特征按照共同的属性进行的抽象;
在5词样本窗口下,可以将上下文特征按照特征模板中出现的词与当前词的距离属性进行抽象。如果限定样本窗口是5词窗口,则这一具体任务的上下文词语特征是指当前词本身、以及当前词前后各两个词及其词语组合所组成的特征。将5词样本窗口下常见上下文词语特征抽象为8类,分别是:W0,W-2W0,W-1W0,W0W1,W0W2,W-2W-1W0,W-1W0W1,W0W1W2,记这些特征模板构成的特征模板集为TMPT-8,这8个特征模板的含义如表1所示。其中,模板中的Wn代表当前词和当前词相距若干位的词。例如,W0表示当前词,W1表示当前词的后一个词,W-1表示当前词的前一个词,依此类推。
表1为TMPT-8中特征模板列表
Figure BDA0002253981240000051
Figure BDA0002253981240000061
具体的,步骤S2将待填空的汉语句子切分为词语序列W1W2……Wn
具体的,对每个候选词语,计算待填空的汉语句子S所对应的词语序列条件下空白处填写该候选词语的条件概率;
一个句子具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,……,Fn),用F这个向量来表征这个句子;这样,条件概率的计算公式为:
Figure BDA0002253981240000062
直接计算条件概率P(W0|F)比较困难,而概率P(W0),P(F|W0)可以从训练数据集中求得;根据公式(1)将后验概率P(W0|F)的求解转换为先验概率P(W0),P(F|W0)的求解;又由于假设上下文特征F向量中的各特征相互独立,所以
Figure BDA0002253981240000063
由于P(F)对于所有不同的候选词语都相同,显然
Figure BDA0002253981240000071
其中,W是候选词语集合,W0表示当前词,在待填空的句子中就是待填入的词语,也就是句子的空白处;假设上下文特征F向量中的各特征相互独立,则有:
Figure BDA0002253981240000072
而概率P(W0),P(W-2|W0),……,P(W1W2|W0)可以通过步骤S1从训练语料中得到的上下文词语特征及频次求得;
Figure BDA0002253981240000073
Figure BDA0002253981240000074
计算过程中由于数据稀疏现象,采用Good-Turing估计进行数据平滑处理;
最终,选择条件概率最大的词语作为填入汉语句子空白处的词语。
下面举例说明本发明:
如下示例是一道中小学选词填空练习题,候选词有两个:“爱惜”和“珍惜”,需要根据给出的汉语句子分别将两个候选词填入两个空白处。
1.他从小就养成了()书籍的好习惯。
2.我们应该()时间,不能随便浪费时间。
根据步骤S2将要进行汉语填空的汉语句子首先分词,即将待填空的汉语句子切分为词语序列,如下所示:
1.他从小就养成了()书籍的好习惯。
2.我们应该()时间,不能随便浪费时间。
根据步骤S3对每个待填空的汉语句子计算比较所对应的词语序列条件下空白处填写每个候选词语的条件概率,取条件概率大的候选词语填入该句子的空白处。在步骤S3中要使用步骤S1从训练语料中统计的上下文特征结果。
对该例子计算比较条件概率大小,选词填空过程如下:
待填空的汉语句子1和句子2有两个候选填空词语:“爱惜”和“珍惜”,根据前面的分析知道对每个句子都需要计算比较空白处填入“爱惜”或“珍惜”的条件概率大小,即计算比较P(W0为爱惜|F)和P(W0为珍惜|F)两个条件概率大小。也就是根据空白处的前后两个词语最终确定最可能的填入词语,我们以句子2为例计算比较。
2.我们应该()时间,不能随便浪费时间。
句子2中上下文“5词窗口”:(W-2,W-1,W0,W1,W2)是(我们,应该,__,时间,,),注意在句子2中词语W2对应的是“逗号,”,计算过程中标点符号也看作一个词语。这样,表征待填空汉语句子的上下文特征就是向量F=(W-2,W-1,W1,W2,W-2W-1,W-1W1,W1W2),即向量F为(我们,应该,时间,,,我们应该,应该时间,时间,)。
根据公式(3)和公式(4),要计算比较P(W0为爱惜|F)和P(W0为珍惜|F)两个条件概率大小,只需要将相应的上下文词语特征及频次代入公式(1)中右边分子P(W0)P(F|W0)比较大小即可,也就是比较下面两个式子的大小。
P(W0为爱惜)P(W-2为我们|W0为爱惜)P(W-1为应该|W0为爱惜)......P(W1W2为时间,|W0为爱惜) (7)
P(W0为珍惜)P(W-2为我们|W0为珍惜)P(W-1为应该|W0为珍惜)......P(W1W2为时间,|W0为珍惜) (8)
而两个式子中的概率值可以通过公式(5)和公式(6)求得,
Figure BDA0002253981240000091
Figure BDA0002253981240000092
例如,条件概率值P(W-1为应该|W0为珍惜)的求解需要从步骤S1中得到的训练语料中“‘应该珍惜’的同现次数”除以训练语料中“‘珍惜’出现次数”,其实也就是训练语料中根据“5词窗口”逐词滑动得到的所有样本中,“当前词为‘珍惜’,且其前一个词为‘应该’的样本数”除以“当前词为‘珍惜’的样本数”。假如在训练语料中有1000个“当前词为‘珍惜’”的样本,而这1000个样本中又有50个“当前词的前一个词为‘应该’”样本。则条件概率
Figure BDA0002253981240000093
这样,我们就可以求出式子(7)和(8)的值,假如式子(8)的值大,则P(W0为珍惜|F)>P(W0为爱惜|F),所以选择条件概率值大的词语“珍惜”作为填入汉语句子空白处的词语。即:
2.我们应该(珍惜)时间,不能随便浪费时间。
同样,对于句子1应选择条件概率值大的词语“爱惜”作为填入汉语句子空白处的词语。即:
1.他从小就养成了(爱惜)书籍的好习惯。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种汉语选词填空方法,其特征在于,包括以下步骤:
S1、从一给定的训练语料中获得词语特征及其出现的频次;
S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;
S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;
S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;
S5、输出填空的汉语词语结果。
2.根据权利要求1所述的汉语选词填空方法,其特征在于,步骤S1包括:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照设定的样本窗口大小通过特征模板集扩展出上下文词语特征,统计求取上下文词语特征及其频次,训练语料是经过汉语分词后的汉语语料。
3.根据权利要求1所述的汉语选词填空方法,其特征在于,步骤S2将待填空的汉语句子切分为词语序列W1W2……Wn
4.根据权利要求1所述的汉语选词填空方法,其特征在于,对每个候选词语,计算待填空的汉语句子S所对应的词语序列条件下空白处填写该候选词语的条件概率;
一个句子具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,……,Fn),用F这个向量来表征这个句子;这样,条件概率的计算公式为:
Figure FDA0002253981230000021
直接计算条件概率P(W0|F)比较困难,而概率P(W0),P(F|W0)可以从训练数据集中求得;根据公式(1)将后验概率P(W0|F)的求解转换为先验概率P(W0),P(F|W0)的求解;又由于假设上下文特征F向量中的各特征相互独立,所以
由于P(F)对于所有不同的候选词语都相同,显然
Figure FDA0002253981230000023
其中,W是候选词语集合,W0表示当前词,在待填空的句子中就是待填入的词语,也就是句子的空白处;假设上下文特征F向量中的各特征相互独立,则有:
Figure FDA0002253981230000024
而概率P(W0),P(W-2|W0),……,P(W1W2|W0)可以通过步骤S1从训练语料中得到的上下文词语特征及频次求得;
Figure FDA0002253981230000025
计算过程中由于数据稀疏现象,采用Good-Turing估计进行数据平滑处理;
最终,选择条件概率最大的词语作为填入汉语句子空白处的词语。
CN201911045351.3A 2019-10-30 2019-10-30 一种汉语选词填空方法 Active CN110807316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911045351.3A CN110807316B (zh) 2019-10-30 2019-10-30 一种汉语选词填空方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911045351.3A CN110807316B (zh) 2019-10-30 2019-10-30 一种汉语选词填空方法

Publications (2)

Publication Number Publication Date
CN110807316A true CN110807316A (zh) 2020-02-18
CN110807316B CN110807316B (zh) 2023-08-15

Family

ID=69489761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911045351.3A Active CN110807316B (zh) 2019-10-30 2019-10-30 一种汉语选词填空方法

Country Status (1)

Country Link
CN (1) CN110807316B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407673A (zh) * 2021-06-24 2021-09-17 作业帮教育科技(北京)有限公司 基于语义的题目作答评判方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013007210A1 (zh) * 2011-07-14 2013-01-17 腾讯科技(深圳)有限公司 文字输入方法、装置及系统
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013007210A1 (zh) * 2011-07-14 2013-01-17 腾讯科技(深圳)有限公司 文字输入方法、装置及系统
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
于江德等: "基于单个词语特征模板的汉语词性标注", 《山西大学学报(自然科学版)》 *
于江德等: "隐马尔可夫模型在自然语言处理中的应用", 《计算机工程与设计》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407673A (zh) * 2021-06-24 2021-09-17 作业帮教育科技(北京)有限公司 基于语义的题目作答评判方法、装置及电子设备

Also Published As

Publication number Publication date
CN110807316B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN107480143B (zh) 基于上下文相关性的对话话题分割方法和系统
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN106547739A (zh) 一种文本语义相似度分析方法
CN107180026B (zh) 一种基于词嵌入语义映射的事件短语学习方法及装置
CN103678271B (zh) 一种文本校正方法及用户设备
CN108959474B (zh) 实体关系提取方法
US20220083577A1 (en) Information processing apparatus, method and non-transitory computer readable medium
CN109766547B (zh) 一种句子相似度计算方法
CN106168954A (zh) 一种基于编辑距离的负面信息模式模糊匹配方法
CN110688489A (zh) 基于交互注意力的知识图谱推演方法、装置和存储介质
CN105550174A (zh) 基于样本重要性的自动机器翻译领域自适应方法
CN109190099B (zh) 句模提取方法及装置
CN117217315B (zh) 一种利用大语言模型生成高质量问答数据的方法及装置
CN109033066A (zh) 一种摘要形成方法及装置
Stein et al. Intrinsic Plagiarism Analysis with Meta Learning.
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN105243053A (zh) 提取文档关键句的方法及装置
CN103678318A (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Gruppi et al. Fake it till you make it: Self-supervised semantic shifts for monolingual word embedding tasks
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN110991193A (zh) 一种基于OpenKiWi的翻译矩阵模型选择系统
NEAMAH et al. QUESTION ANSWERING SYSTEM SUPPORTING VECTOR MACHINE METHOD FOR HADITH DOMAIN.
Etchegoyhen et al. Supervised and unsupervised minimalist quality estimators: Vicomtech’s participation in the wmt 2018 quality estimation task
CN110807316B (zh) 一种汉语选词填空方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant