CN112417823B - 一种中文文本语序调整和量词补全方法及系统 - Google Patents

一种中文文本语序调整和量词补全方法及系统 Download PDF

Info

Publication number
CN112417823B
CN112417823B CN202010974604.1A CN202010974604A CN112417823B CN 112417823 B CN112417823 B CN 112417823B CN 202010974604 A CN202010974604 A CN 202010974604A CN 112417823 B CN112417823 B CN 112417823B
Authority
CN
China
Prior art keywords
chinese
word
text
corpus
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010974604.1A
Other languages
English (en)
Other versions
CN112417823A (zh
Inventor
陈益强
龙广玉
邢云冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010974604.1A priority Critical patent/CN112417823B/zh
Publication of CN112417823A publication Critical patent/CN112417823A/zh
Application granted granted Critical
Publication of CN112417823B publication Critical patent/CN112417823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种中文文本语序调整和量词补全方法、系统,包括:将中文语料库中的词序列输入至N元语言模型,得到中文语料库的N元词表,对中文语料库中语料进行量词标注形成量词表,删除中文语料库中被标注的量词后与该中文语料库形成平行语料库,以平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;对待调整的中文文本进行词性标注,按照语序调整规则对中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,通过量词补全模型对文本调序结果中量词缺失的位置进行定位和填补。

Description

一种中文文本语序调整和量词补全方法及系统
技术领域
本发明涉及自然语言处理领域,具体是指一种低资源的中文文本语序调整和量词补全的方法、系统。
背景技术
随着大数据语料的积累以及深度学习等机器学习算法的发展,自然语言处理(Natural Language processing,NLP)技术日渐成熟,文本纠错(Grammatical ErrorCorrection,CGED)是自然语言处理领域的一个经典问题,其目的是自动纠正文本中存在的语法错误,提高语言正确性的同时减少人工校验成本。例如聋哑人表达汉语时,习惯用手语语法书写中文文本,由此造成语序混乱(相对于汉语)、缺失量词等问题。
按照汉语语法体系,语法错误类型主要有:错别字、语序颠倒、字词缺失。错别字纠正技术已相较成熟,利用错别字词典、编辑距离和语言模型能很好的识别和纠正错别字。对于语序颠倒和字词缺失,由于中文具有无明显词边界以及拥有庞大的字符集等特性,目前并没有简单有效解决该问题的通用方法,一般通过大量语料数据训练模型来进行纠错处理。
目前主流的文本纠错方案大体上分为两种,一是利用长短期记忆网络(LongShort-Term Memory,LSTM)结合条件随机场(Conditional Random field,CRF)以序列标注方式进行错误位置检测,但该方法仅是检测出错误位置而并未对错误进行纠正,所实现的功能并不完善,并且当标注语料数据有限时,精度也较低;二是基于机器翻译的方法,将纠错任务类比于机器翻译任务,然而该方法本质上是利用序列到序列的模型将错误语句翻译为正确语句,仍然依赖大量的标注语料数据,即正确语句和错误语句对。
深度学习技术在NLP领域大获成功的一个前提条件是大量标注语料,通过覆盖几乎所有搜索空间的大量数据提高模型的泛化能力,标注语料的匮乏是采用深度学习算法经常面临的困难,尤其对于小众语言,例如手语,目前没有手语文本和中文文本的平行语料数据集,只有手语视频和中文文本的平行语料数据集,且标注是句子级别的,并没有在词级别进行标注。
发明内容
为了解决上述标注语料有限的问题,本发明提供了一种利用少量无监督语料数据来完成中文文本语序调整以及量词定位及补全的方法。本发明包括准备和校正两个阶段,准备阶段只需执行一次,校正阶段每执行一次可以纠错一句中文文本。
具体来说本发明提供了一种中文文本语序调整和量词补全方法,包括:
步骤1、将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
步骤2、对待调整的中文文本进行词性标注,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的校准结果。
所述的中文文本语序调整和量词补全方法,待调整的该中文文本为直译手语得到的。
所述的中文文本语序调整和量词补全方法,该步骤1包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
所述的中文文本语序调整和量词补全方法,该步骤2包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
所述的中文文本语序调整和量词补全方法,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。
本发明还提出了一种中文文本语序调整和量词补全系统,包括:
训练模块,用于将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
标注模块,用于对待调整的中文文本进行词性标注,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的校准结果。
所述的中文文本语序调整和量词补全系统,待调整的该中文文本为直译手语得到的。
所述的中文文本语序调整和量词补全系统,该训练模块包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
所述的中文文本语序调整和量词补全系统,该标注模块包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
所述的中文文本语序调整和量词补全系统,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。
与现有技术相比,本发明的有益效果在于:
(1)语序调整引入规则信息,无需有监督语料,弥补小样本标注数据训练模型时特征提取不充分、欠拟合等不足,比用单一方法进行语序调整的性能有很大的提升,比起大样本标注数据训练的深度学习模型,执行效率更高,也减少了制作标注数据的时间成本和人力成本。
(2)使用序列标注模型来处理量词定位及补全,区别于已有发明将缺失词的定位和填补分步解决,本发明对特定缺失词进行定位的同时能准确预测缺失词本身,实现了类似端到端的学习,简化了系统的结构。
(3)量词标签的设计思想来自BIO标注集,由于中文量词均为单字词,无须跨字符标注量词实体位置,因此将非量词标签设计为同一类别即可,从而方便形成量词补全模型的训练语料数据。
(4)本发明可应用于不同领域,区别在于低资源训练数据和调整规则的不同,具有较大的通用性。
附图说明
图1a至图1m是语序调整规则的多个示例图;
图2是语序调整的一个示例图;
图3是集束搜索的一个示例图;
图4是用于量词定位和补全的双向长短期记忆模型图。
具体实施方式
为了解决上述标注语料有限的问题,本发明提供了一种利用少量无标签数据来完成中文文本语序调整以及量词定位及补全的方法。本发明包括准备和校正两个阶段,准备阶段只需执行一次,校正阶段每执行一次可以纠错一句中文文本。
一、准备阶段
(1)设计语序调整规则
语序调整规则是将一种语言的文本语序转换到另一种语言的文本语序的一般规则。文本语序可以通过语法结构给予形式化的定义,语句由词语组成,语法结构即是语句的句法结构以及语句中词语之间的依存关系。例如中文语序主要为“主谓宾”结构,而手语语序一般为“宾语前置”结构。
(2)训练文本调序模型
采用N元语言模型实现文本调序。N元语言模型是一个统计概率模型,可以计算出语料库各个词序列出现的概率,其中语料库可采用开源数据。对于句子S=(W1,W2,...,Wn),其中W是组成句子的词语,n是整个句子中词语的数量,则S出现的概率P(S)=P(W1,W2,...,WN),利用条件概率公式则有:
P(S)=P(W1,W2,…,WN)
=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1)
其中P(W1)表示第一个词W1出现的概率,P(W2||W1)表示在W1出现时,W2出现的概率,以此类推。二元语言模型即第N个词的出现只与第N-1个词相关,三元语言模型即第N个词的出现只与第N-1、N-2个词相关,由此分别得出概率公式如下:
(3)训练量词补全模型
采用序列标注模型实现量词补全。对中文无监督语料库进行词性分析和量词标注,标注的量词形成量词表,删除量词的语料和原始语料形成平行语料库作为训练数据,训练序列标注模型实现端到端的量词定位及补全。对于输入序列s={x1,x2,...,xn},其中xi表示该序列的第i个字符,预测序列的字符级标签y={y1,y2,...,yn},其中yi为量词表中对应的量词标签或者非量词标签,根据此量词标签和非量词标签可知何处缺失量词并指明缺失什么量词,补全过程见附图4。
二、校正阶段
步骤1、文本预处理
对待处理的中文文本进行清洗和分词,在词语间插入空格。
步骤2、文本调序
对中文乱序文本进行语序调整,以最优语序输出。
首先对待调序文本进行词性分析,对空格之间的词语进行词性标注,比如动词、名词、形容词。其次对待调序文本进行句法分析,获取词语之间的依存关系以得到原文本的语法结构。然后根据设计的调整规则以及词性标注结果转换原文本的语句结构和顺序,形成多个符合中文语法规则的新文本,即文本调序候选集。最后基于文本调序模型在文本调序候选集进行搜索,依据概率选择词语,由此生成基于训练语料的概率最大的语句,作为最终的文本调序结果。
步骤3、量词定位及补全
基于量词补全模型定位出缺失的量词位置以及量词标记,查找量词表对缺失量词的中文文本进行定位和填补。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
为了方便理解,在对本发明的方法做详细说明前,首先给出本发明方法的一个可能的应用场景。聋人和常人进行文字交流时,聋人受母语“手语”的影响,习惯用手语语法书写中文文本(类似中式英语),且手语有不表达量词的特点。虽然现有技术中也存在对中文文本纠错的相关方法,但正如背景技术中已经提到的,通用纠错技术并不考虑每种错误类型的具体形式,其认为语句中每个词和字是随机错乱和缺失的,然而手语也有其固有的语法结构,结合手语和汉语的语法结构特点可以使文本调序模型和量词补全模型减少对大样本数据的依赖,在低资源的条件下即可实现中文文本语序调整以及量词定位及补全。
针对上述应用场景,结合附图在下文中给出本发明的一个具体实施例,包括准备和校正两个阶段,准备阶段只需执行一次,校正阶段每执行一次可以纠错一句中文文本。基本步骤如下:
一、准备阶段
(1)设计语序调整规则
根据手语和汉语的语法结构,设计的调整规则部分如下:
规则1:如果输入语句句末为疑问词并且疑问词前面是名词,则将该疑问词调整到该名词之前,如图1a所示。
规则2:如果输入语句句末为疑问词并且疑问词前面不是名词,则将该疑问词调整到句首,如图1b所示。
规则3:如果输入语句句末为否定词,则将该否定词调整到前一动词之前,如图1c所示。
规则4:如果输入语句包含[[ATT]+,[SBV],[ATT],[SBV],[HED]]结构,则调整为[[SBV],[HED],[ATT]+,[VOB]]结构,其中‘+’表示出现1次或多次,如图1d所示。
规则5:如果输入语句包含[[ATT],[SBV],…,[HED],[RAD]]结构并且[SBV]和[HED]中的词有交集,则将[[HED][RAD]]调整到[[ATT],[SBV]]之后,如图1e所示。
规则6:如果输入语句包含[[ATT],[RAD],[FOB],[SBV],[ADV][HED]]结构,则调整为[[SBV],[ADV],[HED],[ATT],[RAD],[VOB]]结构,如图1f所示。
规则7:如果输入语句包含[[ATT]+,[RAD],[SBV],[HED]]结构,则调整为[[ATT],[RAD],[SBV],[HED],[VOB]]结构,其中‘+’表示出现1次或多次,如图1g所示。
规则8:如果输入语句包含[[SBV],[HED],[SBV]]结构,则调整为[[SBV],[HED],[VOB]]结构,如图1h所示。
规则9:如果输入语句包含[[ADV],[HED],[VOB]]结构,则调整为[[SBV],[ADV],[HED]]结构,如图1i所示。
规则10:如果输入语句包含[[ADV],[FOB],[HED]]结构,则调整为[[ADV],[HED],[VOB]]结构,如图1j所示。
规则11:如果输入语句包含[[ADV]|[ATT],[SBV],[HED]]结构,则调整为[[SBV],[HED],[VOB]]结构,其中‘|’表示‘或’,如图1k所示。
规则12:如果输入语句包含[[SBV],[HED],[VOB]+“否定词”]结构,则将该否定词调整到[HED]之前,如图1l所示。
规则13:如果输入语句包含[[SBV]+“否定词”]并且去除否定词后的句子包含[[ADV],[HED],[VOB]]结构,则将该否定词调整到整个结构之前,如图1m所示。
需要说明的是,上述规则仅适用于将手语文本调整为中文文本,且所提到的疑问词和否定词均为自构建的词表,相关领域技术人员可以根据实际需要进行构建。
(2)训练文本调序模型
采用N元语言模型实现文本调序,在本实施例中N元语言模型具体为三元语言模型,因为一般来说N元语言模型模型的N不会超过4,N越大,那么计算量就越大,训练时间长,耗费资源多。根据三元语言模型在中文无监督语料库中训练出三元词表,三元词表是一种特殊的词典,包含训练语料中的所有三元词序列频度。例如中文文本为“计算机/无法/识别/自然/语言”,则该文本范围内的三元词表为:“{((计算机,无法):识别);((无法,识别):自然);((识别,自然):语言)}”,相应的二元词表为:“{(计算机:无法);(无法:识别);(识别:自然);(自然:语言)}”。
三元语言模型计算概率的精确度依赖于语料库的大小和质量,考虑到所用中文语料库样本数较少,某些三元词序列可能在语料库中从未出现,但实际是符合语法并且存在的,此时三元语言模型将会面临零概率问题。为此需要进行数据平滑,数据平滑的目的是重新分配整个概率空间,使所有的概率之和为1,并且使所有的概率都不为0。本实施例采用的是Add-one平滑模式,即让所有的三元词序列至少出现一次。
(3)训练量词补全模型
采用双向长短期记忆模型实现量词的定位及补全。对中文语料库进行词性分析和量词标注,标注的量词形成量词表,删除量词的语料和原始语料形成平行语料库作为训练数据,训练双向长短期记忆模型实现端到端的量词定位及补全。原始语料即未删除量词的语料,如:“一条狗三只猫”为原始语料,而“一狗三猫”为删除量词的语料,两者有一一对应关系。本实施例使用删除量词后的文本序列作为输入,前置位缺失量词的字符使用对应量词进行标注,其余字符都被标注为非量词,由此训练模型后既可定位到量词位置又可得到量词本身。
二、校正阶段
步骤1、文本预处理
对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,常见的中文文本数据清洗内容有:非文本数据(如HTML标签、URL等内容)、长串数字(如电话)、无意义的一串字母、表情符号、停用词和标点符号。
利用jieba分词工具对清洗后的文本进行分词,并在词语间插入空格。
步骤2、文本调序
首先对分词后的中文文本进行词性标注,词性可以分类为名词、动词、形容词、数词、代词、量词、区别词7类实词以及副词、介词、连词、助词、叹词、拟声词、语气词7类虚词。
其次对词性标注后的文本进行句法分析,确定句子的句法结构,分析句子所包含的句法单位以及句法单位之间的依存关系,包括主谓关系(SBV),动宾关系(VOB),状中结构(ADV)等。
然后根据词性标注结果、句法结构和词语间的依存关系,按照所设计的调整规则转换原文本的语句结构和顺序,形成多个符合中文语法规则的新文本,即文本调序候选集。
最后利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语,由此生成基于训练语料的概率最大的语句,作为最终的文本调序结果。
集束搜索本质上是贪心的思想,不同于贪心搜索每一步只选择概率最大的假设,集束搜索是每一步选择概率最大的K个假设,其中的K值称为集束宽度。集束搜索以较少的代价在相对受限的搜索空间中找出其局部最优解,得出的解接近于整个搜索空间中的全局最优解。
图2示出了手语语序“两只狗三条鱼我家有”到汉语语序“我家有两只狗三条鱼”的语序调整的示例,根据规则4、规则5、规则11产生文本调序候选集,共包括三条语句,利用已训练好的N元语言模型对文本调序候选集中的语句分别计算概率,此概率做了归一化处理,可得“我家有两只狗三条鱼”这条语句概率最大,为最终调序结果。
图3示出了一个集束搜索的示例,其中集束宽度为2,单词序列“我”“爱”“北京”“XXX”在文本调序候选集中搜索概率最大的序列,最终以“我爱/北京/XXX”这一序列作为最终结果。
步骤3、量词定位及补全
利用双向长短期记忆模型定位出缺失的量词位置以及量词标记,查找量词表对缺失量词的中文文本进行定位和填补。
在输入层,将每个汉字映射成一个固定维数的多维向量,并依次输入双向长短期记忆模型进行操作和处理,构造一个包含上下文信息的序列双向表达,输出经过softmax层进行分类,映射到相应的标签。
本发明的效果可以通过以下实验说明。本实验所用数据来源于维基百科问答语料,详见https://github.com/brightmart/nlp_chinese_corpus。
文本调序的实验结果如表1所示。
表1文本调序的实验结果
模型 AC LCS
Bi-gram 31.37% 65.87%
Tri-gram 56.33% 79.32%
规则+Bi-gram 70.11% 82.19%
规则+Tri-gram 77.06% 86.55%
实验结果分别以下方法来评估:1)绝对准确率(AC):预测语句与真实语句进行汉字一一对比,若某个汉字位置不能对应,则整句判定结果为错误;2)最长正确子序列匹配(LCS):将预测语句与真实语句进行最长子序列匹配,计算整个测试集最长正确子序列的平均占比。该实验结果表明三元语言模型比二元语言模型更为有效,这是由于文本预测依赖于上下文信息,而三元语言模型相较于二元语言模型的依赖更长。三元语言模型的LCS数值为79.32%,表明预测结果和测试语句的结构相差不大,语句的可理解性较强。在三元语言模型的基础上,融合规则信息后,实验结果的综合指标明显提升。
量词定位及补全的实验结果如表2所示。
表2量词定位及补全的实验结果
HMM LSTM Bi-LSTM Bi-LSTM(同形词)
准确率 90.61% 64.69% 97.23% 97.58%
召回率 92.3% 62.9% 96.49% 97.56%
F1分数 90.46% 62.56% 96.65% 97.4%
实验结果表明长短期记忆模型(LSTM)模型综合指标最低,双向长短期记忆模型(Bi-LSTM)的综合指标优于其他两种模型。这是由于LSTM只能提取上文信息特征,无法利用下文信息特征,序列的特征抽取不够充分,因此标注效果不理想。Bi-LSTM比其他两个模型具有更好的量词定位效果,说明使用上下文信息有助于的解决序列标注问题。包含量词同形词的准确率、召回率、F1分数分别为97.58%,97.56%,97.4%,表明该模型在有同形词的干扰下仍然能够准确、有效的定位量词。所述同形词是指一样的字但是却有不一样的词性或词义,如“一位”中的“位”和“单位”中的“位”所代表的意义不同。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还提出了一种中文文本语序调整和量词补全系统,包括:
训练模块,用于将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
标注模块,用于对待调整的中文文本进行词性标注,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的校准结果。
所述的中文文本语序调整和量词补全系统,待调整的该中文文本为直译手语得到的。
所述的中文文本语序调整和量词补全系统,该训练模块包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
所述的中文文本语序调整和量词补全系统,该标注模块包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
所述的中文文本语序调整和量词补全系统,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。

Claims (8)

1.一种中文文本语序调整和量词补全方法,其特征在于,包括:
步骤1、将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
步骤2、对待调整的直译手语得到的中文文本进行词性标注和句法分析,以确定句子的句法结构,分析句子所包含的句法单位以及句法单位之间的依存关系,根据词性标注结果、句法结构和该依存关系,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型定位出该文本调序结果中量词缺失的位置以及量词标记,查找该量词表对缺失量词的中文文本进行定位和填补,得到该中文文本的校准结果。
2.如权利要求1所述的中文文本语序调整和量词补全方法,其特征在于,该步骤1包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
3.如权利要求1所述的中文文本语序调整和量词补全方法,其特征在于,该步骤2包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
4.如权利要求1所述的中文文本语序调整和量词补全方法,其特征在于,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。
5.一种中文文本语序调整和量词补全系统,其特征在于,包括:
训练模块,用于将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
标注模块,用于对待调整的直译手语得到的中文文本进行词性标注和句法分析,以确定句子的句法结构,分析句子所包含的句法单位以及句法单位之间的依存关系,根据词性标注结果、句法结构和该依存关系,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型定位出该文本调序结果中量词缺失的位置以及量词标记,查找该量词表对缺失量词的中文文本进行定位和填补,得到该中文文本的校准结果。
6.如权利要求5所述的中文文本语序调整和量词补全系统,其特征在于,该训练模块包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
7.如权利要求5所述的中文文本语序调整和量词补全系统,其特征在于,该标注模块包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
8.如权利要求5所述的中文文本语序调整和量词补全系统,其特征在于,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。
CN202010974604.1A 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统 Active CN112417823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974604.1A CN112417823B (zh) 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974604.1A CN112417823B (zh) 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统

Publications (2)

Publication Number Publication Date
CN112417823A CN112417823A (zh) 2021-02-26
CN112417823B true CN112417823B (zh) 2023-08-29

Family

ID=74854267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974604.1A Active CN112417823B (zh) 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统

Country Status (1)

Country Link
CN (1) CN112417823B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191119A (zh) * 2021-06-02 2021-07-30 云知声智能科技股份有限公司 文本纠错模型的训练方法、设备和存储介质
CN113283218A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 一种语义文本压缩方法及计算机设备
CN113609860B (zh) * 2021-08-05 2023-09-19 湖南特能博世科技有限公司 文本切分方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886688B1 (ko) * 2007-12-11 2009-03-04 한국전자통신연구원 한국어 수량사 생성 방법 및 장치
CN105677642A (zh) * 2015-12-31 2016-06-15 成都数联铭品科技有限公司 一种机器翻译语序调整方法
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN107038160A (zh) * 2017-03-30 2017-08-11 唐亮 多语言智能预处理实时统计机器翻译系统的预处理模块

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886688B1 (ko) * 2007-12-11 2009-03-04 한국전자통신연구원 한국어 수량사 생성 방법 및 장치
CN105677642A (zh) * 2015-12-31 2016-06-15 成都数联铭品科技有限公司 一种机器翻译语序调整方法
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN107038160A (zh) * 2017-03-30 2017-08-11 唐亮 多语言智能预处理实时统计机器翻译系统的预处理模块

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于规则的彝汉双语调序模型研究;王正丽;陈笑蓉;;贵州大学学报(自然科学版)(第01期);63-67 *

Also Published As

Publication number Publication date
CN112417823A (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111209412B (zh) 一种循环更新迭代的期刊文献知识图谱构建方法
Zhang et al. Deep Neural Networks in Machine Translation: An Overview.
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN111611810B (zh) 一种多音字读音消歧装置及方法
US20090281970A1 (en) Automated tagging of documents
CN110119510B (zh) 一种基于传递依存关系和结构助词的关系抽取方法及装置
CN112487206B (zh) 一种自动构建数据集的实体关系抽取方法
CN105068997B (zh) 平行语料的构建方法及装置
CN111061882A (zh) 一种知识图谱构建方法
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
Ratnaparkhi et al. A maximum entropy model for parsing.
CN109408628A (zh) 一种解析句子语义结构的方法及相关设备
CN113343717A (zh) 一种基于翻译记忆库的神经机器翻译方法
Callison-Burch et al. Co-training for statistical machine translation
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
Anik et al. An approach towards multilingual translation by semantic-based verb identification and root word analysis
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置
CN109960720B (zh) 针对半结构化文本的信息抽取方法
CN113486666A (zh) 一种医学命名实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant