CN111539199A - 文本的纠错方法、装置、终端、及存储介质 - Google Patents

文本的纠错方法、装置、终端、及存储介质 Download PDF

Info

Publication number
CN111539199A
CN111539199A CN202010308062.4A CN202010308062A CN111539199A CN 111539199 A CN111539199 A CN 111539199A CN 202010308062 A CN202010308062 A CN 202010308062A CN 111539199 A CN111539199 A CN 111539199A
Authority
CN
China
Prior art keywords
sentence
corrected
word
vector
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010308062.4A
Other languages
English (en)
Other versions
CN111539199B (zh
Inventor
郭晗暄
单彦会
李娜
郑文彬
罗红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010308062.4A priority Critical patent/CN111539199B/zh
Publication of CN111539199A publication Critical patent/CN111539199A/zh
Application granted granted Critical
Publication of CN111539199B publication Critical patent/CN111539199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及人工智能领域,公开了一种文本的纠错方法、装置、终端、及计算机可读存储介质。本发明中,所述文本的纠错方法,包括:获取待纠错句子;将所述待纠错句子转换为句子向量;将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;将所述纠错后句子的句子向量转换为纠错后句子。本发明实施例能够减少人工维护的工作量,从而减少处理成本。

Description

文本的纠错方法、装置、终端、及存储介质
技术领域
本发明实施例涉及人工智能领域,特别涉及一种文本的纠错方法、装置、终端、及计算机可读存储介质。
背景技术
语音对话主要指的是通过电话对话的对话双方的每一轮对话,语音对话多为口语化、重复性的对话,含有较多的无用信息。对语音没法直接处理,需要通过ASR(语音识别)将语音转写成文本。在转写的过程中,由于各种噪声和说话人语气等因素的影响,会使得转写出来的文本效果较差,不能直接用于实际的下游任务。针对这种问题需要对语音转写成的文本进行纠错,将其中的语法和句法等错误纠正,使其满足后续任务的需求。
现阶段的文本纠错算为基于规则的纠错算法。基于规则的纠错算法主要分为错误检测和错误纠正两个步骤,主要是对疑似错误句子进行分析,生成错误处的候选句子或词进行替换,这种方法需要的人力成本较大,需要投入大量的人力进行特征提取.
发明人发现,相关技术中至少存在如下问题:
现有技术主要是基于音似词替换错误,这种需要查错和纠错两个处理过程,主要是将句子中的疑似错误标注出来,然后生成混淆集,从混淆集中筛选出最符合的词进行替换。但是这种方法涉及到的混淆集的建立需要花费大量时间和人工进行维护,成本高且使用不便。
发明内容
本发明实施方式的目的在于提供一种文本的纠错方法、装置、终端、及计算机可读存储介质,能够减少人工维护的工作量,从而减少文本纠错成本。
为解决上述技术问题,本发明的实施方式提供了一种本的纠错方法,包括:
获取待纠错句子;
将所述待纠错句子转换为句子向量;
将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
将所述纠错后句子的句子向量转换为纠错后句子。
本发明的实施方式还提供了一种文本的纠错装置,包括:
获取单元,用于获取待纠错句子;
第一转换单元,用于将所述待纠错句子转换为句子向量;
输入单元,用于将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
第二转换单元,用于将所述纠错后句子的句子向量转换为纠错后句子。
本发明实施例还提供一种终端,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的文本的纠错方法。
本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现所述的文本的纠错方法。
本发明实施方式相对于现有技术而言,获取待纠错句子;将所述待纠错句子转换为句子向量;将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;将所述纠错后句子的句子向量转换为纠错后句子。因此,采用神经机器翻译模型NMT进行自动句子纠错,能够减少人工维护的工作量,从而减少处理成本。
另外,所述获取待纠错句子的步骤之前,所述方法还包括:生成所述神经机器翻译模型NMT;
所述生成所述神经机器翻译模型NMT的步骤包括:
对原始语料进行新词发现处理,生成原始语料分词;
将所述原始语料和预先收集的热词一起加入到分词表中;
根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;
将所述原始句子分词转换为句子向量;
将所述原始句子对应的正确句子转换为句子向量;
将所述原始句子的句子向量和所述正确句子的句子向量组成的句子向量对,输入到NMT模型中进行训练;
通过所述句子向量对的训练,生成所述神经机器翻译模型NMT。
本发明实施例在生成所述神经机器翻译模型NMT过程中,增加了新词发现的处理步骤来生成分词表中的分词,同时将一些常见的热词添加到分词词表之中,能够提升分词的准确度,对于后续的纠错任务具有一定的改进作用。同时,从原始语料中生成分词,可以考虑到上下文的语义以及在上下文中出现的频率,也能够提升分词的准确度,从而提高纠错的准确度。
另外,所述生成所述神经机器翻译模型NMT的步骤包括:对不同说话角色对应的原始语料进行新词发现处理,生成不同说话角色对应的原始语料分词;将所述原始语料分词和预先收集的热词加入到分词表中;所述分词表与所述原始语料对应相同的说话角色;根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;所述分词表与所述原始语料对应相同的说话角色;将所述原始句子分词转换为句子向量;将所述原始句子对应的正确句子转换为句子向量;将所述原始句子的句子向量和所述正确句子的句子向量组成的向量对以及对应的说话角色,输入到NMT模型中进行训练;通过所述向量对的训练,生成所述神经机器翻译模型NMT。上述实施例中,根据不同的角色对应不同的对话文本,在纠错的过程对不同的角色的文本进行不同的处理。在分词的时候,不同的角色对应不同的词表,可以降低模型运算的复杂度。
另外,所述将所述待纠错句子转换为句子向量的步骤包括:对所述待纠错句子进行分词,生成待纠错句子分词;将各个所述待纠错句子分词转换成词向量;组合各个所述待纠错句子分词的词向量,生成所述待纠错句子的句子向量。上述实施例中,在输入模型前,将待纠错句子进行句子向量形式的转换,因此,提高了对待纠错句子的格式规范的兼容性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施例所述的文本的纠错方法的流程图;
图2是根据本发明第二实施例所述的文本的纠错方法的流程图;
图3是本发明另一实施例文本的纠错方法的流程图;
图4是本发明另一实施例所述的神经机器翻译模型的示意图;
图5是根据本发明实施例所述的文本的纠错装置的结构示意图;
图6是根据本发明实施例所述的终端的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的第一实施方式涉及一种文本的纠错方法,其流程如图1所示,具体如下:
步骤11,生成神经机器翻译模型NMT;
步骤12,获取待纠错句子;
步骤13,将所述待句纠错子转换为句子向量;
步骤14,将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
步骤15,将所述纠错后句子的句子向量转换为纠错后句子。
本发明实施方式相对于现有技术而言,获取待纠错句子;将所述待句纠错子转换为句子向量;将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;将所述纠错后句子的句子向量转换为纠错后句子。本发明实施例采用神经机器翻译模型NMT进行自动句子纠错,能够减少人工维护的工作量,从而减少处理成本。
另外,本发明实施例将所述待纠错句子转换成词向量,因此,神经机器翻译模型NMT对对待纠错句子的文本格式没有特别的要求,对待纠错句子的兼容性比较高。
其中,步骤11包括:
步骤111,对原始语料进行新词发现处理,生成原始语料分词;
步骤112,将所述原始语料和预先收集的热词一起加入到分词表中;本发明实施例增加了新词发现的处理步骤,同时将一些常见的热词添加到分词词表之中,能够提升分词的效果,对于后续的纠错任务具有一定的改进作用。
步骤113,根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;该步骤可以采用jieba等分词工具进行分词。
步骤114,将所述原始句子分词转换为句子向量;
步骤115,将所述原始句子对应的正确句子转换为句子向量;
步骤116,将所述原始句子的句子向量和所述正确句子的句子向量组成的句子向量对,输入到NMT模型中进行训练;
步骤117,通过所述句子向量对的训练,生成所述神经机器翻译模型NMT
所述神经机器翻译模型NMT可以针对特定场景的原始语料进行训练,可以提高神经机器翻译模型NMT针对特定场景的精准度。本发明实施例可以用于对语音转写成的文本进行纠错,当然也可以对写作的文本进行纠错。本发明可以根据不同场景对模型进行训练,减少了人工成本,提高了自动化程度。
其中,步骤111包括:
步骤1111,将所述原始语料中的原始句子分成词语片段;
步骤1112,根据所述词语片段的凝固程度,确定可能成词的所述词语片段;
步骤1113,当可能成词的所述词语片段的信息熵的值大于预设阈值时,将所述词语片段确定为一个原始语料分词。
本发明中,新词发现的主要过程是要计算词的内部凝固程度和自由运用程度(用信息熵表示),提高了分词的准确性。
其中,步骤13包括:
步骤131,对所述待纠错句子进行分词,生成待纠错句子分词;可以采用jieba等分词工具进行分词,也可以参考上述的分词表的生成方法来生成分词表。
步骤132,将各个所述待纠错句子分词转换成词向量;该步骤的同时,可以记录生成分词与词向量之间的对应关系;在分词转换成词向量的过程中,同时也记录了词与词向量之间的一一对应关系。
步骤133,组合各个所述待纠错句子分词的词向量,生成所述待纠错句子的句子向量。具体的组合方式可以有多种方式,包括方法1.简单的将每个词向量进行加权平均;方法2.使用模型中的嵌入层embedding,用每个词向量表示句子向量。
相应的,步骤15包括:
步骤151,将所述待纠错后句子的句子向量通过解码器生成纠错后词向量。此处解码的方法与上述步骤133的词向量到句子向量的处理方法相应,是一个逆处理的过程。
步骤152,根据所述分词与词向量之间的对应关系,获取所述纠错后词向量所对应的纠错后分词;
步骤153,组合所述纠错后分词,生成纠错后句子。
本发明的另一实施方式涉及一种文本的纠错方法,其流程如图2所示,具体如下:
步骤21,生成神经机器翻译模型NMT;
步骤22,获取待纠错句子和所述待纠错句子对应的说话角色;
步骤23,将所述待纠错句子转换成句子向量;该步骤可以为:将所述待纠错句子通过词转向量word2vec模型,转换成固定长度的句子向量。
步骤24,将所述待纠错句子的句子向量和所述待纠错句子对应的说话角色输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
步骤25,将所述纠错后句子的句子向量转换为纠错后句子。
上述实施例中,在纠错的过程为了降低模型的复杂度,在分词的时候,不同的角色对应不同的词表,模型可以对不同角色的句子进行不同的处理。
相应的,步骤21包括:
步骤211,对不同说话角色对应的原始语料进行新词发现处理,生成不同说话角色对应的原始语料分词;
步骤212,将所述原始语料和预先收集的热词加入到分词表中;所述分词表与所述原始语料对应相同的说话角色;
步骤213,根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;所述分词表与所述原始语料对应相同的说话角色;
步骤214,将所述原始句子分词转换为句子向量,以将所述原始句子以向量表示;
步骤215,将所述原始句子对应的正确句子以句子向量表示;
步骤216,将所述原始句子的句子向量和所述正确句子的句子向量组成的向量对以及对应的说话角色,输入到NMT模型中进行训练;
步骤217,通过所述文本对的训练,生成所述神经机器翻译模型NMT。
上述实施例中,在模型的训练过程中,考虑了针对不同对话角色的不同处理,提高了模型的简单度和精准度。并且,每次对不同角色进行模型自动训练,可以提高自动化处理水平。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
以下描述本发明应用场景。本发明实施例提出一种文本的纠错方法,为基于神经机器翻译的文本纠错模型,可以对语音识别后的文本或者其他文本进行纠错。发明思想为:首先是对原始语音对话文本进行新词发现,获取原始语料中可能成词的词表,将其和预先收集的热词一起加入到jieba分词表中对原始语料中的每个句子进行分词;然后将分好词的结果通过word2vec词转向量模型得到每个词的词向量;得到词向量之后,将对话过程中的每个句子向量化表示。将待纠错句子-正确句子对的句子向量形式输入到NMT模型之中进行训练,通过大量的文本对的训练能够使NMT学习到特定场景下的错误情况。后续使用过程中,只需要将待纠错句子的向量表示输入到训练好的NMT中就可以自动的输出纠错后句子的句子向量,然后转换为纠错后句子。
以下具体描述。本发明实施例涉及一种文本的纠错方法,如图3所示,包括:
首先,根据数据(主要包括:语音识别后的待纠错的文本以及人工标注好的对应的正确句子),且基于神经机器翻译思想训练一个文本纠错模型。在训练模型之前,首先需要对原始文本文件进行处理。获取语音识别ASR转写后的对话文本,这些文本中包含了转写错误的信息和每句话中的角色信息,不同的角色对应不同的对话文本,在纠错的过程为了降低模型的复杂度,需要对不同的角色的文本进行不同的处理。在分词的时候,不同的角色对应不同的词表。
然后,对原始语音对话文本进行新词发现,获取原始语料中可能成词的词表,将其和预先收集的热词一起加入到jieba分词表中,对原始语料中的每个句子进行分词。也就是说,利用新词发现算法对原始文本中的新词进行提取,将提取的新词和预先收集到的热词共同作为分词词表对原始语料进行分词。
具体来说,为了使分词效果更好,需要首先收集不同角色可能会使用的热词,然后利用新词发现算法收集原始语料中的新词,新词发现是一种无监督构建词库的方法,主要是希望通过无监督发掘一些语言特征(主要是统计特征),来判断一批语料中哪些字符片段可能是一个新词,新词发现的主要过程是要计算词的内部凝固程度和自由运用程度。由凝固程度确定一个词语片段可能成词;再利用信息熵计算该片段的自由运用程度,当计算的信息熵的值大于某个设置的阈值时确定该词为一个新词。
为了算出一个文本片段的凝固程度,枚举它的凝固方式——这个文本片段是由哪两部分组合而来的。例如,令p(x)为文本片段x在整个语料中现的概率,则定义“电影院”的凝合程度为:
Figure BDA0002456477330000081
而“的电影”的凝合程度为:
Figure BDA0002456477330000082
通过计算,得到“电影院”的凝合程度明显大于“的电影”的凝合程度,因此,“电影院”的成词可能性更大一点。
在计算了凝合程度之后还需要该词的自由运用程度。例如:考虑“被子”和“辈子”这两个片段。可以说“买被子”“盖被子”“进被子”“好被子”“这被子”等,在“被子”前面加各种字;但“辈子”的用法却非常固定,除了“一辈子”“这辈子”“上辈子”“下辈子”,基本上“辈子”前面不能加别的字了。“辈子”这个文本片段左边可以出现的字太有限,以至于直觉上我们可能会认为,“辈子”并不单独成词,真正成词的其实是“一辈子”、“这辈子”之类的整体。可见,文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。凝固程度和自由程度,两种判断标准缺一不可。若只看前者,会找出实际上是“半个词”的片段;若只看后者,程序则会找出诸如“了一”、“的电影”一类的“垃圾词组”。本发明实施例利用信息熵计算该片段的自由运用程度。信息熵能够反映一个事件的结果平均会带来多大的信息量。用信息熵来衡量一个文本片段的左邻字集合和右邻字集合的随机程度。
信息熵的计算公式为
Figure BDA0002456477330000083
pi表示左右邻字在文中出现的概率;n表示左右邻字集的大小,i表示左右邻字字集的序号。
假设对于一句话:“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”,“葡萄”一词出现了四次,左邻字分别为{吃,吐,吃,吐},右邻字分别为{不,皮,倒,皮}。根据信息熵的定义,“葡萄”一词的左邻字的信息熵为
Figure BDA0002456477330000084
它的右邻字的信息熵则为
Figure BDA0002456477330000085
可见,在这个句子中,“葡萄”一词的右邻字更加丰富一些。比较信息熵和提前设置的阈值,如果信息熵大于阈值,则说明可以成词,反之则说明不能成词。
然后,在分词的过程中,可以采用jieba分词工具。jieba分词工具具有添加词表的功能,将上一步获得的词表添加到jieba分词的过程中,然后利用添加了词表的jieba分词工具对原始文本进行分词。由于已经添加了热词和新发现的词,所以分词得到的结果较不添加词表的结果更好。
然后,将分好词的结果通过word2vec词转向量模型得到每个词的固定长度词的向量。也就是说,将分好的词训练一个word2vec词转向量模型,将每个词表示为词向量的形式。后续将词向量输入到神经机器翻译模型中即可训练模型。
在自然语言处理任务中,词有两种向量表示形式,一种是离散表示,另一种是分布式表示。离散表示是使用一个长向量表示词,这个长向量的维度是词表的大小,向量中只有一个元素表示为1,而其余的位置均为0,表示为1的元素的位置对应该字在词典中所在的位置。利用离散方式表示的向量在高维空间中可分,得到向量的过程比较简单,但是这种方式会导致向量的维度非常大,不利于表示。分布式表示将词表示成一个定长连续的稠密向量,分布式表示能表示出词之间存在相似关系,在向量中能够包含更多的信息。本发明实施例优选的生成词向量的方式是训练一个word2vec模型对词向量进行表示。
然后,得到词向量之后,将对话过程中的每个句子向量化表示,将待纠错句子-正确句子的向量对输入到NMT模型之中进行训练,通过大量的文本对的训练能够使NMT学习到特定场景下的错误情况。具体为:句子中的每个词表示成词向量之后,需要将这些词向量进行组合从而将整个句子转换成向量表示形式,这里的组合有多种方式,例如可以为:将每个词向量进行加权平均;或者,使用嵌入层embedding用每个词向量表示句子向量。
神经机器翻译模型(NMT)的思想其实就是将一种语言翻译为另一种语言,是使用基于神经网络的技术来实现更多上下文精确的翻译,而不是一次翻译一个单词的破碎句子。传统意义上来说,机器翻译一般使用高度复杂的语言知识开发出的大型统计模型,但是近来很多研究使用深度模型直接对翻译过程建模,并在只提供原语数据与译文数据的情况下自动学习必要的语言知识。这种基于深度神经网络的翻译模型目前已经获得了最佳效果。在这种基于神经机器翻译的模型中,只需要输入源语言句子和目标语言句子的向量即可进行训练。
使用大型人工神经网络计算单词序列的概率,NMT将完整的句子放入一个集成模型中。NMT的神经元可以学习和收集信息,旨在模仿人类大脑的神经元,建立联系,并将输入评估为整个单元。NMT主要分为编码和解码两个阶段,编码阶段主要处理来自源语言的文本,将这些文本输入到模型中,然后表示成向量的形式。之后这些向量通过解码阶段将无缝的表示为目标语言。在整个翻译过程中,技术不仅仅是翻译单词和短语;相反,它还包括翻译上下文和信息。本发明实施例使用神经机器翻译的思想,将待纠错的句子看作原始语言,而将正确句子看作目标语言,用于文本纠错。利用神经机器翻译的思想处理文本纠错的过程,能够简化很多工作,只需要有待纠错的句子和其对应的正确的句子即可训练模型,大大简化了标注的工作。
神经机器翻译模型一般由四个部分组成,分别是一个简单的循环神经网络RNN、一个带词嵌入的RNN、一个双向的RNN以及一个编码解码模型。通过NMT可以将一个句子从一种语言翻译成另一种语言,借助此思想,可以将待纠错的句子作为神经网络NMT的源输入,而将错误句子对应的正确句子作为目标输出,从而达到一种端到端的纠错模型。这种模型的结构如图4所示,源输入为“你觉的高兴嘛”,目标输出为“你觉得高兴吗”,通过大量的文本对训练一个特定情景下的纠错模型。
然后,后续使用过程中,只需要将待纠错句子的向量表示形式输入到训练好的神经机器翻译模型NMT中,就可以自动的输出纠错后句子的句子向量,实现一种端到端的纠错模型。
本发明实施例还提供一种文本的纠错装置,如图5所示,包括:
获取单元,用于获取待纠错句子;
第一转换单元,用于将所述待纠错句子转换为句子向量;
输入单元,用于将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
第二转换单元,用于将所述纠错后句子的句子向量转换为纠错后句子。
所述纠错装置还包括:生成模型,用于生成所述神经机器翻译模型NMT;具体为:对原始语料进行新词发现处理,生成原始语料分词;将所述原始语料和预先收集的热词一起加入到分词表中;根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;将所述原始句子分词转换为句子向量;将所述原始句子对应的正确句子转换为句子向量;将所述原始句子的句子向量和所述正确句子的句子向量组成的句子向量对,输入到NMT模型中进行训练;通过所述句子向量对的训练,生成所述神经机器翻译模型NMT。
其中,所述对原始语料进行新词发现处理,生成原始语料分词具体为:将所述原始语料中的原始句子分成词语片段;根据所述词语片段的凝固程度,确定可能成词的所述词语片段;当可能成词的所述词语片段的信息熵的值大于预设阈值时,将所述词语片段确定为一个原始语料分词。
其中,所述生成所述神经机器翻译模型NMT具体为:对不同说话角色对应的原始语料进行新词发现处理,生成不同说话角色对应的原始语料分词;将所述原始语料分词和预先收集的热词加入到分词表中;所述分词表与所述原始语料对应相同的说话角色;根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;所述分词表与所述原始语料对应相同的说话角色;将所述原始句子分词转换为句子向量;将所述原始句子对应的正确句子转换为句子向量;将所述原始句子的句子向量和所述正确句子的句子向量组成的向量对以及对应的说话角色,输入到NMT模型中进行训练;通过所述向量对的训练,生成所述神经机器翻译模型NMT。
其中,所述获取待纠错句子具体为:获取待纠错句子和所述待纠错句子对应的说话角色;
所述将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中具体为:将所述待纠错句子的句子向量和所述待纠错句子对应的说话角色输入到训练好的神经机器翻译模型NMT中。
其中,所述将所述待纠错句子转换为句子向量具体为:对所述待纠错句子进行分词,生成待纠错句子分词;将各个所述待纠错句子分词转换成词向量;组合各个所述待纠错句子分词的词向量,生成所述待纠错句子的句子向量。
所述将各个所述待纠错句子分词转换成词向量的同时,还包括:生成分词与词向量之间的对应关系;
所述将所述纠错后句子的句子向量转换为纠错后句子具体为:将所述待纠错后句子的句子向量通过解码器生成纠错后词向量;根据所述分词与词向量之间的对应关系,获取所述纠错后词向量所对应的纠错后分词;组合所述纠错后分词,生成纠错后句子。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明实施例还提供一种终端,如图6所示,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的文本的纠错方法。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本发明另一实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
本发明实施例具有以下有益效果:
1、本发明实施例提出一种基于神经机器翻译的语音文本纠错模型,将待纠错句子-正确句子的向量对输入到NMT模型之中进行训练,能够获得适用于特定对话场景下的NMT纠错模型。
3、本发明实施例使用NMT模型进行句子纠错,在词性标注和词频统计方面可以节省很大额外的工作,大大降低了人工成本,同时标注可能会存在一定的错误,摈弃标注的工作量也能侧面提升纠错的性能。
3、本发明实施例在分词过程中增加了新词发现的功能,同时将一些常见的热词添加到分词词表之中,能够大大提升分词的效果,对于后续的纠错任务具有一定的改进作用。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种文本的纠错方法,其特征在于,包括:
获取待纠错句子;
将所述待纠错句子转换为句子向量;
将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
将所述纠错后句子的句子向量转换为纠错后句子。
2.根据权利要求1所述的方法,其特征在于,所述获取待纠错句子的步骤之前,所述方法还包括:生成所述神经机器翻译模型NMT;
所述生成所述神经机器翻译模型NMT的步骤包括:
对原始语料进行新词发现处理,生成原始语料分词;
将所述原始语料和预先收集的热词一起加入到分词表中;
根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;
将所述原始句子分词转换为句子向量;
将所述原始句子对应的正确句子转换为句子向量;
将所述原始句子的句子向量和所述正确句子的句子向量组成的句子向量对,输入到NMT模型中进行训练;
通过所述句子向量对的训练,生成所述神经机器翻译模型NMT。
3.根据权利要求2所述的方法,其特征在于,所述对原始语料进行新词发现处理,生成原始语料分词的步骤包括:
将所述原始语料中的原始句子分成词语片段;
根据所述词语片段的凝固程度,确定可能成词的所述词语片段;
当可能成词的所述词语片段的信息熵的值大于预设阈值时,将所述词语片段确定为一个原始语料分词。
4.根据权利要求2所述的方法,其特征在于,所述生成所述神经机器翻译模型NMT的步骤包括:
对不同说话角色对应的原始语料进行新词发现处理,生成不同说话角色对应的原始语料分词;
将所述原始语料分词和预先收集的热词加入到分词表中;所述分词表与所述原始语料对应相同的说话角色;
根据所述分词表对所述原始语料中的原始句子进行分词,生成原始句子分词;所述分词表与所述原始语料对应相同的说话角色;
将所述原始句子分词转换为句子向量;
将所述原始句子对应的正确句子转换为句子向量;
将所述原始句子的句子向量和所述正确句子的句子向量组成的向量对以及对应的说话角色,输入到NMT模型中进行训练;
通过所述向量对的训练,生成所述神经机器翻译模型NMT。
5.根据权利要求4所述的方法,其特征在于,
所述获取待纠错句子的步骤包括:获取待纠错句子和所述待纠错句子对应的说话角色;
所述将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中的步骤包括:将所述待纠错句子的句子向量和所述待纠错句子对应的说话角色输入到训练好的神经机器翻译模型NMT中。
6.根据权利要求1所述的方法,其特征在于,所述将所述待纠错句子转换为句子向量的步骤包括:
对所述待纠错句子进行分词,生成待纠错句子分词;
将各个所述待纠错句子分词转换成词向量;
组合各个所述待纠错句子分词的词向量,生成所述待纠错句子的句子向量。
7.根据权利要求6所述的方法,其特征在于,
所述将各个所述待纠错句子分词转换成词向量的步骤的同时,所述方法还包括:生成分词与词向量之间的对应关系;
所述将所述纠错后句子的句子向量转换为纠错后句子的步骤包括:
将所述待纠错后句子的句子向量通过解码器生成纠错后词向量;
根据所述分词与词向量之间的对应关系,获取所述纠错后词向量所对应的纠错后分词;
组合所述纠错后分词,生成纠错后句子。
8.一种文本的纠错装置,其特征在于,包括:
获取单元,用于获取待纠错句子;
第一转换单元,用于将所述待纠错句子转换为句子向量;
输入单元,用于将所述待纠错句子的句子向量输入到训练好的神经机器翻译模型NMT中,以获取所述神经机器翻译模型NMT输出的纠错后句子的句子向量;
第二转换单元,用于将所述纠错后句子的句子向量转换为纠错后句子。
9.一种终端,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的文本的纠错方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的文本的纠错方法。
CN202010308062.4A 2020-04-17 2020-04-17 文本的纠错方法、装置、终端、及存储介质 Active CN111539199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010308062.4A CN111539199B (zh) 2020-04-17 2020-04-17 文本的纠错方法、装置、终端、及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010308062.4A CN111539199B (zh) 2020-04-17 2020-04-17 文本的纠错方法、装置、终端、及存储介质

Publications (2)

Publication Number Publication Date
CN111539199A true CN111539199A (zh) 2020-08-14
CN111539199B CN111539199B (zh) 2023-08-18

Family

ID=71975145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010308062.4A Active CN111539199B (zh) 2020-04-17 2020-04-17 文本的纠错方法、装置、终端、及存储介质

Country Status (1)

Country Link
CN (1) CN111539199B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560846A (zh) * 2020-12-23 2021-03-26 北京百度网讯科技有限公司 纠错语料的生成方法、装置及电子设备
CN112765968A (zh) * 2021-01-05 2021-05-07 网易有道信息技术(北京)有限公司 语法纠错的方法和用于语法纠错模型的训练方法及产品
CN115440333A (zh) * 2022-11-08 2022-12-06 深圳达实旗云健康科技有限公司 数据采集过程中的数据处理方法、装置、终端设备及介质
WO2023233633A1 (ja) * 2022-06-02 2023-12-07 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
JP2019046188A (ja) * 2017-09-01 2019-03-22 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム
US20190129947A1 (en) * 2017-10-26 2019-05-02 Electronics And Telecommunications Research Institute Neural machine translation method and apparatus
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110188353A (zh) * 2019-05-28 2019-08-30 百度在线网络技术(北京)有限公司 文本纠错方法及装置
WO2019225028A1 (ja) * 2018-05-25 2019-11-28 パナソニックIpマネジメント株式会社 翻訳装置、システム、方法及びプログラム並びに学習方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018120889A1 (zh) * 2016-12-28 2018-07-05 平安科技(深圳)有限公司 输入语句的纠错方法、装置、电子设备及介质
CN107293296A (zh) * 2017-06-28 2017-10-24 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
JP2019046188A (ja) * 2017-09-01 2019-03-22 日本電信電話株式会社 文生成装置、文生成学習装置、文生成方法、及びプログラム
US20190129947A1 (en) * 2017-10-26 2019-05-02 Electronics And Telecommunications Research Institute Neural machine translation method and apparatus
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
WO2019225028A1 (ja) * 2018-05-25 2019-11-28 パナソニックIpマネジメント株式会社 翻訳装置、システム、方法及びプログラム並びに学習方法
CN109948152A (zh) * 2019-03-06 2019-06-28 北京工商大学 一种基于lstm的中文文本语法纠错模型方法
CN110188353A (zh) * 2019-05-28 2019-08-30 百度在线网络技术(北京)有限公司 文本纠错方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
乔博文: "融合语义角色的神经机器翻译", 《计算机科学》 *
张俊祺: "面向领域的语音转换后文本纠错研究", 《中国优秀硕士学位论文电子期刊》 *
李娜等: "采用语义分析的标签体系构建方法", 《西安交通大学学报》 *
邓永康: "基于神经机器翻译的中文文本纠错研究", 《万方硕士学问论文电子期刊》, pages 20 - 47 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560846A (zh) * 2020-12-23 2021-03-26 北京百度网讯科技有限公司 纠错语料的生成方法、装置及电子设备
CN112560846B (zh) * 2020-12-23 2022-03-15 北京百度网讯科技有限公司 纠错语料的生成方法、装置及电子设备
CN112765968A (zh) * 2021-01-05 2021-05-07 网易有道信息技术(北京)有限公司 语法纠错的方法和用于语法纠错模型的训练方法及产品
WO2023233633A1 (ja) * 2022-06-02 2023-12-07 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
CN115440333A (zh) * 2022-11-08 2022-12-06 深圳达实旗云健康科技有限公司 数据采集过程中的数据处理方法、装置、终端设备及介质

Also Published As

Publication number Publication date
CN111539199B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US10515155B2 (en) Conversational agent
KR102382499B1 (ko) 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체
CN111539199B (zh) 文本的纠错方法、装置、终端、及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN110134968B (zh) 基于深度学习的诗歌生成方法、装置、设备及存储介质
CN111477216B (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
CN113361266B (zh) 文本纠错方法、电子设备及存储介质
CN111209740B (zh) 文本模型训练方法、文本纠错方法、电子设备及存储介质
WO2020143320A1 (zh) 文本词向量获取方法、装置、计算机设备及存储介质
WO2022121251A1 (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN110211562B (zh) 一种语音合成的方法、电子设备及可读存储介质
CN106776548A (zh) 一种文本的相似度计算的方法和装置
CN110428820A (zh) 一种中英文混合语音识别方法及装置
CN108959388B (zh) 信息生成方法及装置
CN113779972A (zh) 语音识别纠错方法、系统、装置及存储介质
CN113948066B (zh) 一种实时转译文本的纠错方法、系统、存储介质和装置
CN113609824A (zh) 基于文本编辑和语法纠错的多轮对话改写方法及系统
EP3525107A1 (en) Conversational agent
CN115587590A (zh) 训练语料集构建方法、翻译模型训练方法、翻译方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN113392656A (zh) 一种融合推敲网络和字符编码的神经机器翻译方法
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN112836522B (zh) 语音识别结果的确定方法及装置、存储介质及电子装置
CN116129883A (zh) 语音识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant