CN110807316B - 一种汉语选词填空方法 - Google Patents

一种汉语选词填空方法 Download PDF

Info

Publication number
CN110807316B
CN110807316B CN201911045351.3A CN201911045351A CN110807316B CN 110807316 B CN110807316 B CN 110807316B CN 201911045351 A CN201911045351 A CN 201911045351A CN 110807316 B CN110807316 B CN 110807316B
Authority
CN
China
Prior art keywords
word
chinese
filled
filling
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911045351.3A
Other languages
English (en)
Other versions
CN110807316A (zh
Inventor
于江德
李学钰
王希杰
武宇浩
武肖菡
张春雨
常银辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anyang Normal University
Original Assignee
Anyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anyang Normal University filed Critical Anyang Normal University
Priority to CN201911045351.3A priority Critical patent/CN110807316B/zh
Publication of CN110807316A publication Critical patent/CN110807316A/zh
Application granted granted Critical
Publication of CN110807316B publication Critical patent/CN110807316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种汉语选词填空方法,包括以下步骤:S1、从一给定的训练语料中获得词语特征及其出现的频次;S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;S5、输出填空的汉语词语结果。本发明将汉语自动选词填空采用概率统计的方法实现,计算简单、运算量小、选词填空准确率较高。

Description

一种汉语选词填空方法
技术领域
本发明属于计算机领域,具体涉及一种汉语选词填空方法。
背景技术
本发明主要解决的技术问题和应用需求有两方面。其一是让计算机参加高考语文答题的部分试题求解,针对高考语文中选词填空试题。正确使用词语是每年高考的一个必考点,其考查范围包括两个层面:一是正确理解词语,二是正确使用词语。即理解词语在具体语境中的意义,根据语境使用词语。
其二是辅助汉语初学者进行词语使用练习,包括中小学生的汉语选词填空练习和对外汉语教学中的词语使用练习,这些主要涉及同义词或形近词在汉语句子中的使用。
从检索查阅的学术论文、专利、论著来看,还没有汉语自动选词填空的相关技术和方法的公开发表。因此,一种汉语选词填空方法亟待提出。
发明内容
为解决让计算机自动选词填空问题,本发明提供一种汉语选词填空方法。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种汉语选词填空方法,包括以下步骤:
S1、从一给定的训练语料中获得词语特征及其出现的频次;
S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;
S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;
S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;
S5、输出填空的汉语词语结果。
作为本发明的一种优选技术方案,步骤S1包括:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照设定的样本窗口大小通过特征模板集扩展出上下文词语特征,统计求取上下文词语特征及其频次,训练语料是经过汉语分词后的汉语语料。
作为本发明的一种优选技术方案,步骤S2将待填空的汉语句子切分为词语序列W1W2……Wn
作为本发明的一种优选技术方案,对每个候选词语,计算待填空的汉语句子S所对应的词语序列条件下空白处填写该候选词语的条件概率;
一个句子具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,……,Fn),用F这个向量来表征这个句子;这样,条件概率的计算公式为:
直接计算条件概率P(W0|F)比较困难,而概率P(W0),P(F|W0)可以从训练数据集中求得;根据公式(1)将后验概率P(W0|F)的求解转换为先验概率P(W0),P(F|W0)的求解;又由于假设上下文特征F向量中的各特征相互独立,所以
由于P(F)对于所有不同的候选词语都相同,显然
其中,W是候选词语集合,W0表示当前词,在待填空的句子中就是待填入的词语,也就是句子的空白处;假设上下文特征F向量中的各特征相互独立,则有:
而概率P(W0),P(W-2|W0),……,P(W1W2|W0)可以通过步骤S1从训练语料中得到的上下文词语特征及频次求得;
计算过程中由于数据稀疏现象,采用Good-Turing估计进行数据平滑处理;
最终,选择条件概率最大的词语作为填入汉语句子空白处的词语。
本发明的有益效果是:本发明将汉语自动选词填空采用概率统计的方法实现,计算简单、运算量小、选词填空准确率较高。
附图说明
图1是本发明一种汉语选词填空方法的工作流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
为了达到本发明的目的,如图1所示,在本发明的其中一种实施方式中提供一种汉语选词填空方法,包括以下步骤:
S1、从一给定的训练语料中获得词语特征及其出现的频次;
S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;
S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;
S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;
S5、输出填空的汉语词语结果。
具体的,步骤S1包括:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照设定的样本窗口大小通过特征模板集扩展出上下文词语特征,统计求取上下文词语特征及其频次,训练语料是经过汉语分词后的汉语语料。
其中,特征选择的关键在于根据具体的任务选择合适的词语特征,包括选取上下文范围和设定特征模板集,也就是样本窗口大小设定和特征模板集的选定。
通常情况下,上下文的选取是基于当前词左右一定范围进行的,这个固定的范围被称为窗口;窗口中的上下文实质是一个特定样本,所以将该窗口称为样本窗口;可以限定样本窗口是“5词窗口”,即使用当前词前后各两个词作为上下文,也可以限定样本窗口是“7词窗口”,即使用当前词前后各三个词作为上下文。本发明采用“5词窗口”作为样本窗口。
特征模板集是特征模板的集合,特征模板的主要功能是定义上下文中某些特定位置的语言成分或信息与某类待预测事件的关联情况。由于本发明是根据一个汉语句子中空白处的上下文来确定该空的应填词语,因此就由该空前后出现的词、词的组合信息及这些信息出现的位置来确定上下文词语特征。习惯上,特征模板可以看作是对一组上下文词语特征按照共同的属性进行的抽象;
在5词样本窗口下,可以将上下文特征按照特征模板中出现的词与当前词的距离属性进行抽象。如果限定样本窗口是5词窗口,则这一具体任务的上下文词语特征是指当前词本身、以及当前词前后各两个词及其词语组合所组成的特征。将5词样本窗口下常见上下文词语特征抽象为8类,分别是:W0,W-2W0,W-1W0,W0W1,W0W2,W-2W-1W0,W-1W0W1,W0W1W2,记这些特征模板构成的特征模板集为TMPT-8,这8个特征模板的含义如表1所示。其中,模板中的Wn代表当前词和当前词相距若干位的词。例如,W0表示当前词,W1表示当前词的后一个词,W-1表示当前词的前一个词,依此类推。
表1为TMPT-8中特征模板列表
具体的,步骤S2将待填空的汉语句子切分为词语序列W1W2……Wn
具体的,对每个候选词语,计算待填空的汉语句子S所对应的词语序列条件下空白处填写该候选词语的条件概率;
一个句子具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,……,Fn),用F这个向量来表征这个句子;这样,条件概率的计算公式为:
直接计算条件概率P(W0|F)比较困难,而概率P(W0),P(F|W0)可以从训练数据集中求得;根据公式(1)将后验概率P(W0|F)的求解转换为先验概率P(W0),P(F|W0)的求解;又由于假设上下文特征F向量中的各特征相互独立,所以
由于P(F)对于所有不同的候选词语都相同,显然
其中,W是候选词语集合,W0表示当前词,在待填空的句子中就是待填入的词语,也就是句子的空白处;假设上下文特征F向量中的各特征相互独立,则有:
而概率P(W0),P(W-2|W0),……,P(W1W2|W0)可以通过步骤S1从训练语料中得到的上下文词语特征及频次求得;
计算过程中由于数据稀疏现象,采用Good-Turing估计进行数据平滑处理;
最终,选择条件概率最大的词语作为填入汉语句子空白处的词语。
下面举例说明本发明:
如下示例是一道中小学选词填空练习题,候选词有两个:“爱惜”和“珍惜”,需要根据给出的汉语句子分别将两个候选词填入两个空白处。
1.他从小就养成了()书籍的好习惯。
2.我们应该()时间,不能随便浪费时间。
根据步骤S2将要进行汉语填空的汉语句子首先分词,即将待填空的汉语句子切分为词语序列,如下所示:
1.他从小就养成了()书籍的好习惯。
2.我们应该()时间,不能随便浪费时间。
根据步骤S3对每个待填空的汉语句子计算比较所对应的词语序列条件下空白处填写每个候选词语的条件概率,取条件概率大的候选词语填入该句子的空白处。在步骤S3中要使用步骤S1从训练语料中统计的上下文特征结果。
对该例子计算比较条件概率大小,选词填空过程如下:
待填空的汉语句子1和句子2有两个候选填空词语:“爱惜”和“珍惜”,根据前面的分析知道对每个句子都需要计算比较空白处填入“爱惜”或“珍惜”的条件概率大小,即计算比较P(W0为爱惜|F)和P(W0为珍惜|F)两个条件概率大小。也就是根据空白处的前后两个词语最终确定最可能的填入词语,我们以句子2为例计算比较。
2.我们应该()时间,不能随便浪费时间。
句子2中上下文“5词窗口”:(W-2,W-1,W0,W1,W2)是(我们,应该,__,时间,,),注意在句子2中词语W2对应的是“逗号,”,计算过程中标点符号也看作一个词语。这样,表征待填空汉语句子的上下文特征就是向量F=(W-2,W-1,W1,W2,W-2W-1,W-1W1,W1W2),即向量F为(我们,应该,时间,,,我们应该,应该时间,时间,)。
根据公式(3)和公式(4),要计算比较P(W0为爱惜|F)和P(W0为珍惜|F)两个条件概率大小,只需要将相应的上下文词语特征及频次代入公式(1)中右边分子P(W0)P(F|W0)比较大小即可,也就是比较下面两个式子的大小。
P(W0为爱惜)P(W-2为我们|W0为爱惜)P(W-1为应该|W0为爱惜)......P(W1W2为时间,|W0为爱惜) (7)
P(W0为珍惜)P(W-2为我们|W0为珍惜)P(W-1为应该|W0为珍惜)......P(W1W2为时间,|W0为珍惜) (8)
而两个式子中的概率值可以通过公式(5)和公式(6)求得,
例如,条件概率值P(W-1为应该|W0为珍惜)的求解需要从步骤S1中得到的训练语料中“‘应该珍惜’的同现次数”除以训练语料中“‘珍惜’出现次数”,其实也就是训练语料中根据“5词窗口”逐词滑动得到的所有样本中,“当前词为‘珍惜’,且其前一个词为‘应该’的样本数”除以“当前词为‘珍惜’的样本数”。假如在训练语料中有1000个“当前词为‘珍惜’”的样本,而这1000个样本中又有50个“当前词的前一个词为‘应该’”样本。则条件概率
这样,我们就可以求出式子(7)和(8)的值,假如式子(8)的值大,则P(W0为珍惜|F)>P(W0为爱惜|F),所以选择条件概率值大的词语“珍惜”作为填入汉语句子空白处的词语。即:
2.我们应该(珍惜)时间,不能随便浪费时间。
同样,对于句子1应选择条件概率值大的词语“爱惜”作为填入汉语句子空白处的词语。即:
1.他从小就养成了(爱惜)书籍的好习惯。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种汉语选词填空方法,其特征在于,包括以下步骤:
S1、从一给定的训练语料中获得词语特征及其出现的频次;
S2、切分要进行汉语填空的汉语句子:将待填空的汉语句子切分为词语序列;
S3、计算比较待填空的汉语句子所对应的词语序列条件下空白处填写每个候选词语的条件概率;
S4、根据计算比较每个候选词语填入空白处的条件概率大小确定用于填空的汉语词语;
S5、输出填空的汉语词语结果;
对每个候选词语,计算待填空的汉语句子S所对应的词语序列条件下空白处填写该候选词语的条件概率;
一个句子具有很多特征,把它的众多特征看作一个向量,即F=(F1,F2,F3,……,Fn),用F这个向量来表征这个句子;这样,条件概率的计算公式为:
直接计算条件概率P(W0|F)比较困难,而概率P(W0),P(F|W0)可以从训练数据集中求得;根据公式(1)将后验概率P(W0|F)的求解转换为先验概率P(W0),P(F|W0)的求解;又由于假设上下文特征F向量中的各特征相互独立,所以
由于P(F)对于所有不同的候选词语都相同,显然
其中,W是候选词语集合,W0表示当前词,在待填空的句子中就是待填入的词语,也就是句子的空白处;假设上下文特征F向量中的各特征相互独立,则有:
而概率P(W0),P(W-2|W0),……,P(W1W2|W0)可以通过步骤S1从训练语料中得到的上下文词语特征及频次求得;
计算过程中由于数据稀疏现象,采用Good-Turing估计进行数据平滑处理;
最终,选择条件概率最大的词语作为填入汉语句子空白处的词语。
2.根据权利要求1所述的汉语选词填空方法,其特征在于,步骤S1包括:设定样本窗口大小,并选定特征模板集,从一给定的训练语料中按照设定的样本窗口大小通过特征模板集扩展出上下文词语特征,统计求取上下文词语特征及其频次,训练语料是经过汉语分词后的汉语语料。
3.根据权利要求1所述的汉语选词填空方法,其特征在于,步骤S2将待填空的汉语句子切分为词语序列W1W2……Wn
CN201911045351.3A 2019-10-30 2019-10-30 一种汉语选词填空方法 Active CN110807316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911045351.3A CN110807316B (zh) 2019-10-30 2019-10-30 一种汉语选词填空方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911045351.3A CN110807316B (zh) 2019-10-30 2019-10-30 一种汉语选词填空方法

Publications (2)

Publication Number Publication Date
CN110807316A CN110807316A (zh) 2020-02-18
CN110807316B true CN110807316B (zh) 2023-08-15

Family

ID=69489761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911045351.3A Active CN110807316B (zh) 2019-10-30 2019-10-30 一种汉语选词填空方法

Country Status (1)

Country Link
CN (1) CN110807316B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013007210A1 (zh) * 2011-07-14 2013-01-17 腾讯科技(深圳)有限公司 文字输入方法、装置及系统
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013007210A1 (zh) * 2011-07-14 2013-01-17 腾讯科技(深圳)有限公司 文字输入方法、装置及系统
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN110222349A (zh) * 2019-06-13 2019-09-10 成都信息工程大学 一种深度动态上下文词语表示的模型及方法、计算机

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
隐马尔可夫模型在自然语言处理中的应用;于江德等;《计算机工程与设计》;20071128(第22期);全文 *

Also Published As

Publication number Publication date
CN110807316A (zh) 2020-02-18

Similar Documents

Publication Publication Date Title
US10741092B1 (en) Application of high-dimensional linguistic and semantic feature vectors in automated scoring of examination responses
US8577670B2 (en) Adaptive construction of a statistical language model
US20180089169A1 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
CN109800414A (zh) 语病修正推荐方法及系统
CN103678271B (zh) 一种文本校正方法及用户设备
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN109766547B (zh) 一种句子相似度计算方法
CN109190099B (zh) 句模提取方法及装置
CN104239289A (zh) 音节划分方法和音节划分设备
Charoenpornsawat et al. Improving translation quality of rule-based machine translation
Hasler et al. Dynamic topic adaptation for smt using distributional profiles
Álvarez et al. Towards customized automatic segmentation of subtitles
JP6867963B2 (ja) 要約評価装置、方法、プログラム、及び記憶媒体
Trinh et al. New dataset and strong baselines for the grammatical error correction of Russian
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
CN113806500B (zh) 信息处理方法、装置和计算机设备
Etchegoyhen et al. Supervised and unsupervised minimalist quality estimators: Vicomtech’s participation in the wmt 2018 quality estimation task
CN112559711A (zh) 一种同义文本提示方法、装置及电子设备
CN110807316B (zh) 一种汉语选词填空方法
Mori et al. Language Resource Addition: Dictionary or Corpus?
Seker et al. Universal morpho-syntactic parsing and the contribution of lexica: Analyzing the onlp lab submission to the conll 2018 shared task
US11934779B2 (en) Information processing device, information processing method, and program
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN108733757B (zh) 文本搜索方法及系统
Søgaard et al. Sentence-level instance-weighting for graph-based and transition-based dependency parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant