CN112417823A - 一种中文文本语序调整和量词补全方法及系统 - Google Patents

一种中文文本语序调整和量词补全方法及系统 Download PDF

Info

Publication number
CN112417823A
CN112417823A CN202010974604.1A CN202010974604A CN112417823A CN 112417823 A CN112417823 A CN 112417823A CN 202010974604 A CN202010974604 A CN 202010974604A CN 112417823 A CN112417823 A CN 112417823A
Authority
CN
China
Prior art keywords
chinese
text
word
language database
adjusting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010974604.1A
Other languages
English (en)
Other versions
CN112417823B (zh
Inventor
陈益强
龙广玉
邢云冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN202010974604.1A priority Critical patent/CN112417823B/zh
Publication of CN112417823A publication Critical patent/CN112417823A/zh
Application granted granted Critical
Publication of CN112417823B publication Critical patent/CN112417823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种中文文本语序调整和量词补全方法、系统,包括:将中文语料库中的词序列输入至N元语言模型,得到中文语料库的N元词表,对中文语料库中语料进行量词标注形成量词表,删除中文语料库中被标注的量词后与该中文语料库形成平行语料库,以平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;对待调整的中文文本进行词性标注,按照语序调整规则对中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,通过量词补全模型对文本调序结果中量词缺失的位置进行定位和填补。

Description

一种中文文本语序调整和量词补全方法及系统
技术领域
本发明涉及自然语言处理领域,具体是指一种低资源的中文文本语序调整 和量词补全的方法、系统。
背景技术
随着大数据语料的积累以及深度学习等机器学习算法的发展,自然语言处 理(Natural Language processing,NLP)技术日渐成熟,文本纠错 (Grammatical ErrorCorrection,CGED)是自然语言处理领域的一个经典问 题,其目的是自动纠正文本中存在的语法错误,提高语言正确性的同时减少人 工校验成本。例如聋哑人表达汉语时,习惯用手语语法书写中文文本,由此造 成语序混乱(相对于汉语)、缺失量词等问题。
按照汉语语法体系,语法错误类型主要有:错别字、语序颠倒、字词缺失。 错别字纠正技术已相较成熟,利用错别字词典、编辑距离和语言模型能很好的 识别和纠正错别字。对于语序颠倒和字词缺失,由于中文具有无明显词边界以 及拥有庞大的字符集等特性,目前并没有简单有效解决该问题的通用方法,一 般通过大量语料数据训练模型来进行纠错处理。
目前主流的文本纠错方案大体上分为两种,一是利用长短期记忆网络 (LongShort-Term Memory,LSTM)结合条件随机场(Conditional Random field,CRF)以序列标注方式进行错误位置检测,但该方法仅是检测出错误位 置而并未对错误进行纠正,所实现的功能并不完善,并且当标注语料数据有限 时,精度也较低;二是基于机器翻译的方法,将纠错任务类比于机器翻译任务, 然而该方法本质上是利用序列到序列的模型将错误语句翻译为正确语句,仍然 依赖大量的标注语料数据,即正确语句和错误语句对。
深度学习技术在NLP领域大获成功的一个前提条件是大量标注语料,通过 覆盖几乎所有搜索空间的大量数据提高模型的泛化能力,标注语料的匮乏是采 用深度学习算法经常面临的困难,尤其对于小众语言,例如手语,目前没有手 语文本和中文文本的平行语料数据集,只有手语视频和中文文本的平行语料数 据集,且标注是句子级别的,并没有在词级别进行标注。
发明内容
为了解决上述标注语料有限的问题,本发明提供了一种利用少量无监督语 料数据来完成中文文本语序调整以及量词定位及补全的方法。本发明包括准备 和校正两个阶段,准备阶段只需执行一次,校正阶段每执行一次可以纠错一句 中文文本。
具体来说本发明提供了一种中文文本语序调整和量词补全方法,包括:
步骤1、将中文语料库中的N元词序列输入至N元语言模型,得到该中文 语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量 词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料 库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向 长短期记忆模型得到量词补全模型;
步骤2、对待调整的中文文本进行词性标注,按照语序调整规则对该中文 文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集, 利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基 于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型对 该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的校准结 果。
所述的中文文本语序调整和量词补全方法,待调整的该中文文本为直译手 语得到的。
所述的中文文本语序调整和量词补全方法,该步骤1包括:通过重新分配 整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑 后的中文语料库作为训练数据,训练N元语言模型。
所述的中文文本语序调整和量词补全方法,该步骤2包括:对待处理的中 文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗 后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文 本进行词性标注。
所述的中文文本语序调整和量词补全方法,该语序调整规则通过对手语文 本和其对应的中文文本进行机器学习得到或通过人工预设得到。
本发明还提出了一种中文文本语序调整和量词补全系统,包括:
训练模块,用于将中文语料库中的N元词序列输入至N元语言模型,得到 该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词 形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中 间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训 练双向长短期记忆模型得到量词补全模型;
标注模块,用于对待调整的中文文本进行词性标注,按照语序调整规则对 该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候 选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语, 生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全 模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的 校准结果。
所述的中文文本语序调整和量词补全系统,待调整的该中文文本为直译手 语得到的。
所述的中文文本语序调整和量词补全系统,该训练模块包括:通过重新分 配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平 滑后的中文语料库作为训练数据,训练N元语言模型。
所述的中文文本语序调整和量词补全系统,该标注模块包括:对待处理的 中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清 洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文 文本进行词性标注。
所述的中文文本语序调整和量词补全系统,该语序调整规则通过对手语文 本和其对应的中文文本进行机器学习得到或通过人工预设得到。
与现有技术相比,本发明的有益效果在于:
(1)语序调整引入规则信息,无需有监督语料,弥补小样本标注数据训 练模型时特征提取不充分、欠拟合等不足,比用单一方法进行语序调整的性能 有很大的提升,比起大样本标注数据训练的深度学习模型,执行效率更高,也 减少了制作标注数据的时间成本和人力成本。
(2)使用序列标注模型来处理量词定位及补全,区别于已有发明将缺失 词的定位和填补分步解决,本发明对特定缺失词进行定位的同时能准确预测缺 失词本身,实现了类似端到端的学习,简化了系统的结构。
(3)量词标签的设计思想来自BIO标注集,由于中文量词均为单字词, 无须跨字符标注量词实体位置,因此将非量词标签设计为同一类别即可,从而 方便形成量词补全模型的训练语料数据。
(4)本发明可应用于不同领域,区别在于低资源训练数据和调整规则的 不同,具有较大的通用性。
附图说明
图1a至图1m是语序调整规则的多个示例图;
图2是语序调整的一个示例图;
图3是集束搜索的一个示例图;
图4是用于量词定位和补全的双向长短期记忆模型图。
具体实施方式
为了解决上述标注语料有限的问题,本发明提供了一种利用少量无标签数 据来完成中文文本语序调整以及量词定位及补全的方法。本发明包括准备和校 正两个阶段,准备阶段只需执行一次,校正阶段每执行一次可以纠错一句中文 文本。
一、准备阶段
(1)设计语序调整规则
语序调整规则是将一种语言的文本语序转换到另一种语言的文本语序的 一般规则。文本语序可以通过语法结构给予形式化的定义,语句由词语组成, 语法结构即是语句的句法结构以及语句中词语之间的依存关系。例如中文语序 主要为“主谓宾”结构,而手语语序一般为“宾语前置”结构。
(2)训练文本调序模型
采用N元语言模型实现文本调序。N元语言模型是一个统计概率模型,可 以计算出语料库各个词序列出现的概率,其中语料库可采用开源数据。对于句 子S=(W1,W2,...,Wn),其中W是组成句子的词语,n是整个句子中词语的数量, 则S出现的概率P(S)=P(W1,W2,...,WN),利用条件概率公式则有:
P(S)=P(W1,W2,…,WN)
=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1)
其中P(W1)表示第一个词W1出现的概率,P(W2|W1)表示在W1出现时,W2出 现的概率,以此类推。二元语言模型即第N个词的出现只与第N-1个词相关, 三元语言模型即第N个词的出现只与第N-1、N-2个词相关,由此分别得出概 率公式如下:
Figure BDA0002685321680000051
Figure BDA0002685321680000052
(3)训练量词补全模型
采用序列标注模型实现量词补全。对中文无监督语料库进行词性分析和量 词标注,标注的量词形成量词表,删除量词的语料和原始语料形成平行语料库 作为训练数据,训练序列标注模型实现端到端的量词定位及补全。对于输入序 列s={x1,x2,...,xn},其中xi表示该序列的第i个字符,预测序列的字符级标签 y={y1,y2,...,yn},其中yi为量词表中对应的量词标签或者非量词标签,根据此量词 标签和非量词标签可知何处缺失量词并指明缺失什么量词,补全过程见附图4。
二、校正阶段
步骤1、文本预处理
对待处理的中文文本进行清洗和分词,在词语间插入空格。
步骤2、文本调序
对中文乱序文本进行语序调整,以最优语序输出。
首先对待调序文本进行词性分析,对空格之间的词语进行词性标注,比如 动词、名词、形容词。其次对待调序文本进行句法分析,获取词语之间的依存 关系以得到原文本的语法结构。然后根据设计的调整规则以及词性标注结果转 换原文本的语句结构和顺序,形成多个符合中文语法规则的新文本,即文本调 序候选集。最后基于文本调序模型在文本调序候选集进行搜索,依据概率选择 词语,由此生成基于训练语料的概率最大的语句,作为最终的文本调序结果。
步骤3、量词定位及补全
基于量词补全模型定位出缺失的量词位置以及量词标记,查找量词表对缺 失量词的中文文本进行定位和填补。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并 配合说明书附图作详细说明如下。
为了方便理解,在对本发明的方法做详细说明前,首先给出本发明方法的 一个可能的应用场景。聋人和常人进行文字交流时,聋人受母语“手语”的影 响,习惯用手语语法书写中文文本(类似中式英语),且手语有不表达量词的 特点。虽然现有技术中也存在对中文文本纠错的相关方法,但正如背景技术中 已经提到的,通用纠错技术并不考虑每种错误类型的具体形式,其认为语句中 每个词和字是随机错乱和缺失的,然而手语也有其固有的语法结构,结合手语 和汉语的语法结构特点可以使文本调序模型和量词补全模型减少对大样本数 据的依赖,在低资源的条件下即可实现中文文本语序调整以及量词定位及补全。
针对上述应用场景,结合附图在下文中给出本发明的一个具体实施例,包 括准备和校正两个阶段,准备阶段只需执行一次,校正阶段每执行一次可以纠 错一句中文文本。基本步骤如下:
一、准备阶段
(1)设计语序调整规则
根据手语和汉语的语法结构,设计的调整规则部分如下:
规则1:如果输入语句句末为疑问词并且疑问词前面是名词,则将该疑问 词调整到该名词之前,如图1a所示。
规则2:如果输入语句句末为疑问词并且疑问词前面不是名词,则将该疑 问词调整到句首,如图1b所示。
规则3:如果输入语句句末为否定词,则将该否定词调整到前一动词之前, 如图1c所示。
规则4:如果输入语句包含[[ATT]+,[SBV],[ATT],[SBV],[HED]]结构, 则调整为[[SBV],[HED],[ATT]+,[VOB]]结构,其中‘+’表示出现1次或多次, 如图1d所示。
规则5:如果输入语句包含[[ATT],[SBV],…,[HED],[RAD]]结构并且[SBV] 和[HED]中的词有交集,则将[[HED][RAD]]调整到[[ATT],[SBV]]之后,如图 1e所示。
规则6:如果输入语句包含[[ATT],[RAD],[FOB],[SBV],[ADV][HED]]结构, 则调整为[[SBV],[ADV],[HED],[ATT],[RAD],[VOB]]结构,如图1f所示。
规则7:如果输入语句包含[[ATT]+,[RAD],[SBV],[HED]]结构,则调整为[[ATT],[RAD],[SBV],[HED],[VOB]]结构,其中‘+’表示出现1次或多次,如 图1g所示。
规则8:如果输入语句包含[[SBV],[HED],[SBV]]结构,则调整为 [[SBV],[HED],[VOB]]结构,如图1h所示。
规则9:如果输入语句包含[[ADV],[HED],[VOB]]结构,则调整为 [[SBV],[ADV],[HED]]结构,如图1i所示。
规则10:如果输入语句包含[[ADV],[FOB],[HED]]结构,则调整为 [[ADV],[HED],[VOB]]结构,如图1j所示。
规则11:如果输入语句包含[[ADV]|[ATT],[SBV],[HED]]结构,则调整为 [[SBV],[HED],[VOB]]结构,其中‘|’表示‘或’,如图1k所示。
规则12:如果输入语句包含[[SBV],[HED],[VOB]+“否定词”]结构, 则将该否定词调整到[HED]之前,如图1l所示。
规则13:如果输入语句包含[[SBV]+“否定词”]并且去除否定词后的句 子包含[[ADV],[HED],[VOB]]结构,则将该否定词调整到整个结构之前,如图 1m所示。
需要说明的是,上述规则仅适用于将手语文本调整为中文文本,且所提到 的疑问词和否定词均为自构建的词表,相关领域技术人员可以根据实际需要进 行构建。
(2)训练文本调序模型
采用N元语言模型实现文本调序,在本实施例中N元语言模型具体为三元 语言模型,因为一般来说N元语言模型模型的N不会超过4,N越大,那么计 算量就越大,训练时间长,耗费资源多。根据三元语言模型在中文无监督语料 库中训练出三元词表,三元词表是一种特殊的词典,包含训练语料中的所有三 元词序列频度。例如中文文本为“计算机/无法/识别/自然/语言”,则该文本 范围内的三元词表为:“{((计算机,无法):识别);((无法,识别):自然);((识 别,自然):语言)}”,相应的二元词表为:“{(计算机:无法);(无法:识别);(识 别:自然);(自然:语言)}”。
三元语言模型计算概率的精确度依赖于语料库的大小和质量,考虑到所用 中文语料库样本数较少,某些三元词序列可能在语料库中从未出现,但实际是 符合语法并且存在的,此时三元语言模型将会面临零概率问题。为此需要进行 数据平滑,数据平滑的目的是重新分配整个概率空间,使所有的概率之和为1, 并且使所有的概率都不为0。本实施例采用的是Add-one平滑模式,即让所有 的三元词序列至少出现一次。
(3)训练量词补全模型
采用双向长短期记忆模型实现量词的定位及补全。对中文语料库进行词性 分析和量词标注,标注的量词形成量词表,删除量词的语料和原始语料形成平 行语料库作为训练数据,训练双向长短期记忆模型实现端到端的量词定位及补 全。原始语料即未删除量词的语料,如:“一条狗三只猫”为原始语料,而“一 狗三猫”为删除量词的语料,两者有一一对应关系。本实施例使用删除量词后 的文本序列作为输入,前置位缺失量词的字符使用对应量词进行标注,其余字 符都被标注为非量词,由此训练模型后既可定位到量词位置又可得到量词本身。
二、校正阶段
步骤1、文本预处理
对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,常 见的中文文本数据清洗内容有:非文本数据(如HTML标签、URL等内容)、长 串数字(如电话)、无意义的一串字母、表情符号、停用词和标点符号。
利用jieba分词工具对清洗后的文本进行分词,并在词语间插入空格。
步骤2、文本调序
首先对分词后的中文文本进行词性标注,词性可以分类为名词、动词、形 容词、数词、代词、量词、区别词7类实词以及副词、介词、连词、助词、叹 词、拟声词、语气词7类虚词。
其次对词性标注后的文本进行句法分析,确定句子的句法结构,分析句子 所包含的句法单位以及句法单位之间的依存关系,包括主谓关系(SBV),动宾关 系(VOB),状中结构(ADV)等。
然后根据词性标注结果、句法结构和词语间的依存关系,按照所设计的调 整规则转换原文本的语句结构和顺序,形成多个符合中文语法规则的新文本, 即文本调序候选集。
最后利用N元词表在文本调序候选集进行集束搜索,依据概率选择词语, 由此生成基于训练语料的概率最大的语句,作为最终的文本调序结果。
集束搜索本质上是贪心的思想,不同于贪心搜索每一步只选择概率最大的 假设,集束搜索是每一步选择概率最大的K个假设,其中的K值称为集束宽度。 集束搜索以较少的代价在相对受限的搜索空间中找出其局部最优解,得出的解 接近于整个搜索空间中的全局最优解。
图2示出了手语语序“两只狗三条鱼我家有”到汉语语序“我家有两只狗 三条鱼”的语序调整的示例,根据规则4、规则5、规则11产生文本调序候选 集,共包括三条语句,利用已训练好的N元语言模型对文本调序候选集中的语 句分别计算概率,此概率做了归一化处理,可得“我家有两只狗三条鱼”这条 语句概率最大,为最终调序结果。
图3示出了一个集束搜索的示例,其中集束宽度为2,单词序列“我”“爱” “北京”“XXX”在文本调序候选集中搜索概率最大的序列,最终以“我爱/北 京/XXX”这一序列作为最终结果。
步骤3、量词定位及补全
利用双向长短期记忆模型定位出缺失的量词位置以及量词标记,查找量词 表对缺失量词的中文文本进行定位和填补。
在输入层,将每个汉字映射成一个固定维数的多维向量,并依次输入双向 长短期记忆模型进行操作和处理,构造一个包含上下文信息的序列双向表达, 输出经过softmax层进行分类,映射到相应的标签。
本发明的效果可以通过以下实验说明。本实验所用数据来源于维基百科问 答语料,详见https://github.com/brightmart/nlp_chinese_corpus。
文本调序的实验结果如表1所示。
表1文本调序的实验结果
模型 AC LCS
Bi-gram 31.37% 65.87%
Tri-gram 56.33% 79.32%
规则+Bi-gram 70.11% 82.19%
规则+Tri-gram 77.06% 86.55%
实验结果分别以下方法来评估:1)绝对准确率(AC):预测语句与真实语 句进行汉字一一对比,若某个汉字位置不能对应,则整句判定结果为错误;2) 最长正确子序列匹配(LCS):将预测语句与真实语句进行最长子序列匹配,计 算整个测试集最长正确子序列的平均占比。该实验结果表明三元语言模型比二 元语言模型更为有效,这是由于文本预测依赖于上下文信息,而三元语言模型 相较于二元语言模型的依赖更长。三元语言模型的LCS数值为79.32%,表明 预测结果和测试语句的结构相差不大,语句的可理解性较强。在三元语言模型 的基础上,融合规则信息后,实验结果的综合指标明显提升。
量词定位及补全的实验结果如表2所示。
表2量词定位及补全的实验结果
Figure BDA0002685321680000101
实验结果表明长短期记忆模型(LSTM)模型综合指标最低,双向长短期记 忆模型(Bi-LSTM)的综合指标优于其他两种模型。这是由于LSTM只能提取上 文信息特征,无法利用下文信息特征,序列的特征抽取不够充分,因此标注效 果不理想。Bi-LSTM比其他两个模型具有更好的量词定位效果,说明使用上下 文信息有助于的解决序列标注问题。包含量词同形词的准确率、召回率、F1 分数分别为97.58%,97.56%,97.4%,表明该模型在有同形词的干扰下仍然能 够准确、有效的定位量词。所述同形词是指一样的字但是却有不一样的词性或 词义,如“一位”中的“位”和“单位”中的“位”所代表的意义不同。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方 式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有 效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细 节也可应用在上述实施方式中。
本发明还提出了一种中文文本语序调整和量词补全系统,包括:
训练模块,用于将中文语料库中的N元词序列输入至N元语言模型,得到 该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词 形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中 间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训 练双向长短期记忆模型得到量词补全模型;
标注模块,用于对待调整的中文文本进行词性标注,按照语序调整规则对 该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候 选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语, 生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全 模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的 校准结果。
所述的中文文本语序调整和量词补全系统,待调整的该中文文本为直译手 语得到的。
所述的中文文本语序调整和量词补全系统,该训练模块包括:通过重新分 配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平 滑后的中文语料库作为训练数据,训练N元语言模型。
所述的中文文本语序调整和量词补全系统,该标注模块包括:对待处理的 中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清 洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文 文本进行词性标注。
所述的中文文本语序调整和量词补全系统,该语序调整规则通过对手语文 本和其对应的中文文本进行机器学习得到或通过人工预设得到。

Claims (10)

1.一种中文文本语序调整和量词补全方法,其特征在于,包括:
步骤1、将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
步骤2、对待调整的中文文本进行词性标注,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的校准结果。
2.如权利要求1所述的中文文本语序调整和量词补全方法,其特征在于,待调整的该中文文本为直译手语得到的。
3.如权利要求1所述的中文文本语序调整和量词补全方法,其特征在于,该步骤1包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
4.如权利要求1所述的中文文本语序调整和量词补全方法,其特征在于,该步骤2包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
5.如权利要求2所述的中文文本语序调整和量词补全方法,其特征在于,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。
6.一种中文文本语序调整和量词补全系统,其特征在于,包括:
训练模块,用于将中文语料库中的N元词序列输入至N元语言模型,得到该中文语料库的N元词表,对该中文语料库中语料进行量词标注,标注的量词形成量词表,删除该中文语料库中被标注的量词,得到中间语料库,集合该中间语料库与该中文语料库形成平行语料库,以该平行语料库作为训练数据,训练双向长短期记忆模型得到量词补全模型;
标注模块,用于对待调整的中文文本进行词性标注,按照语序调整规则对该中文文本中语句结构和顺序进行调整,形成由多个新文本构成的文本调序候选集,利用该N元词表在文本调序候选集进行集束搜索,依据概率选择词语,生成基于中文语料库的概率最大的语句作为文本调序结果,并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补,得到该中文文本的校准结果。
7.如权利要求6所述的中文文本语序调整和量词补全系统,其特征在于,待调整的该中文文本为直译手语得到的。
8.如权利要求6所述的中文文本语序调整和量词补全系统,其特征在于,该训练模块包括:通过重新分配整个中文语料库的概率空间,对该中文语料库进行数据平滑,并使用数据平滑后的中文语料库作为训练数据,训练N元语言模型。
9.如权利要求6所述的中文文本语序调整和量词补全系统,其特征在于,该标注模块包括:对待处理的中文文本进行清洗,将对提取特征无用甚至干扰内容去除,利用分词工具对清洗后的中文文本进行分词并在词语间插入空格,将完成分词和插入空格的中文文本进行词性标注。
10.如权利要求2所述的中文文本语序调整和量词补全系统,其特征在于,该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。
CN202010974604.1A 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统 Active CN112417823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010974604.1A CN112417823B (zh) 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010974604.1A CN112417823B (zh) 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统

Publications (2)

Publication Number Publication Date
CN112417823A true CN112417823A (zh) 2021-02-26
CN112417823B CN112417823B (zh) 2023-08-29

Family

ID=74854267

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010974604.1A Active CN112417823B (zh) 2020-09-16 2020-09-16 一种中文文本语序调整和量词补全方法及系统

Country Status (1)

Country Link
CN (1) CN112417823B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191119A (zh) * 2021-06-02 2021-07-30 云知声智能科技股份有限公司 文本纠错模型的训练方法、设备和存储介质
CN113283218A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 一种语义文本压缩方法及计算机设备
CN113609860A (zh) * 2021-08-05 2021-11-05 湖南特能博世科技有限公司 文本切分方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886688B1 (ko) * 2007-12-11 2009-03-04 한국전자통신연구원 한국어 수량사 생성 방법 및 장치
CN105677642A (zh) * 2015-12-31 2016-06-15 成都数联铭品科技有限公司 一种机器翻译语序调整方法
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN107038160A (zh) * 2017-03-30 2017-08-11 唐亮 多语言智能预处理实时统计机器翻译系统的预处理模块

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100886688B1 (ko) * 2007-12-11 2009-03-04 한국전자통신연구원 한국어 수량사 생성 방법 및 장치
CN105677642A (zh) * 2015-12-31 2016-06-15 成都数联铭品科技有限公司 一种机器翻译语序调整方法
CN105740218A (zh) * 2015-12-31 2016-07-06 成都数联铭品科技有限公司 一种机器翻译后编辑处理方法
CN107038160A (zh) * 2017-03-30 2017-08-11 唐亮 多语言智能预处理实时统计机器翻译系统的预处理模块

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王正丽;陈笑蓉;: "基于规则的彝汉双语调序模型研究", 贵州大学学报(自然科学版), no. 01, pages 63 - 67 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191119A (zh) * 2021-06-02 2021-07-30 云知声智能科技股份有限公司 文本纠错模型的训练方法、设备和存储介质
CN113283218A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 一种语义文本压缩方法及计算机设备
CN113609860A (zh) * 2021-08-05 2021-11-05 湖南特能博世科技有限公司 文本切分方法、装置及计算机设备
CN113609860B (zh) * 2021-08-05 2023-09-19 湖南特能博世科技有限公司 文本切分方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112417823B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN112069298B (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US8156053B2 (en) Automated tagging of documents
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
US8082151B2 (en) System and method of generating responses to text-based messages
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN110795938B (zh) 文本序列分词方法、装置及存储介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN101706777A (zh) 机器翻译中抽取调序模板的方法及系统
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN111061882A (zh) 一种知识图谱构建方法
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN111428501A (zh) 命名实体的识别方法、识别系统及计算机可读存储介质
CN113553853B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN115618883A (zh) 一种业务语义识别方法及装置
Callison-Burch et al. Co-training for statistical machine translation
CN110750967B (zh) 一种发音的标注方法、装置、计算机设备和存储介质
Iosif et al. Speech understanding for spoken dialogue systems: From corpus harvesting to grammar rule induction
CN115906878A (zh) 一种基于提示的机器翻译方法
CN115858733A (zh) 跨语言实体词检索方法、装置、设备及存储介质
Ramesh et al. Interpretable natural language segmentation based on link grammar
CN109960720B (zh) 针对半结构化文本的信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant