CN106815592A - 模型训练方法及装置和错别字识别方法及装置 - Google Patents

模型训练方法及装置和错别字识别方法及装置 Download PDF

Info

Publication number
CN106815592A
CN106815592A CN201510849928.1A CN201510849928A CN106815592A CN 106815592 A CN106815592 A CN 106815592A CN 201510849928 A CN201510849928 A CN 201510849928A CN 106815592 A CN106815592 A CN 106815592A
Authority
CN
China
Prior art keywords
word
sentence
text
term vector
wrong
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510849928.1A
Other languages
English (en)
Other versions
CN106815592B (zh
Inventor
刘粉香
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510849928.1A priority Critical patent/CN106815592B/zh
Publication of CN106815592A publication Critical patent/CN106815592A/zh
Application granted granted Critical
Publication of CN106815592B publication Critical patent/CN106815592B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种模型训练方法及装置和错别字识别方法及装置。其中,该模型训练方法包括:从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息;确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,神经网络模型用于识别文本中的错别字。本申请解决了现有技术中文本中错别字的识别率低的技术问题。

Description

模型训练方法及装置和错别字识别方法及装置
技术领域
本申请涉及文本处理领域,具体而言,涉及一种模型训练方法及装置和错别字识别方法及装置。
背景技术
文本是记载信息的重要载体。由于文本大都是人工编辑的,而人工编辑难免会出现失误,从而使得文本中出现错别字。对于文本中错别字的识别,目前通常采用人工建立正确的词汇库,并进行文本匹配,来识别错别字的方式,然而这种很难找到全面、正确的词汇库,致使漏检率较高,且有些语句随着时间的变化,其表达也发生变化,例如,王五副主任最近晋升为王五主任,在最近的新闻中为王五主任,历史新闻中为王五副主任,如果最新发布新闻中为“王五副主任”,则认为该组合的“副主任”为错别字,而现有的识别方式无法识别出这种错别字,进而导致文本中错别字的识别率低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种模型训练方法及装置和错别字识别方法及装置,以至少解决现有技术中文本中错别字的识别率低的技术问题。
根据本申请实施例的一个方面,提供了一种模型训练方法,包括:从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。
进一步地,在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,所述模型训练方法还包括:获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。
进一步地,确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量包括:对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
进一步地,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,所述模型训练方法还包括:将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。
根据本申请实施例的另一方面,还提供了一种错别字识别方法,包括:获取待测文本及其每条语句发布的时间信息;根据所述时间信息生成每条语句对应的时间向量;对所述待测文本进行分词处理,确定出每个词语对应的词向量;以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。
根据本申请实施例的另一方面,还提供了一种模型训练装置,包括:提取单元,用于从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;确定单元,用于确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;训练单元,用于以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。
进一步地,所述模型训练装置还包括:获取单元,用于在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;生成单元,用于利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。
进一步地,所述确定单元包括:分词模块,用于对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;查找模块,用于从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
进一步地,所述模型训练装置还包括:标记模块,用于在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。
根据本申请实施例的另一方面,还提供了一种错别字识别装置,包括:时间获取单元,用于获取待测文本及其每条语句发布的时间信息;向量生成单元,用于根据所述时间信息生成每条语句对应的时间向量;向量确定单元,用于对所述待测文本进行分词处理,确定出每个词语对应的词向量;识别单元,用于以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。
根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字的识别率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的模型训练方法的流程图;
图2是根据本申请实施例的错别字识别方法的流程图;
图3是根据本申请实施例的模型训练装置的示意图;
图4是根据本申请实施例的错别字识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种模型训练方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的模型训练方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本。
预设文本数据源可以是人民日报、中国政府网等资源网站,可以是经过纠正后不包含有错别字的文本数据源。该预设文本数据源中包含有大量的没有错别字的文本,从中提取出这些文本信息。
本实施例中,在提取文本信息的同时还提取文本信息对应的时间信息,该时间信息可以是相应的文本发布的时间,例如人民日报发表该文本的时间,网站发布文本的时间等。
步骤S104,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间。
对上述提取出的文本信息,确定出其中每个词语对应的词向量,每个词语的词向量用一组多维数组来表示,不同的词语对应的词向量各不相同。其中,词语的词向量可以是已经预先定义好的,在提取出文本信息之后,从预先定义的词向量中查询出文本信息中每个词语的词向量。也可以按照预先设定的词向量生成规则,生成每个词语的词向量。
对于文本信息中的语句,确定出每条语句对应的时间向量。时间向量可以是按照预设规则对每个时间点(例如精确到日)的时间定义一组多维数组,用于唯一表示该时间点,例如时间向量为[2015,10,9,……]表示文本发布时间为2015年10月9日。
步骤S106,以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,神经网络模型用于识别文本中的错别字。
本实施例中,在确定出文本信息中所包含的每个词语的词向量之后,以文本信息中的语句为单位,将文本信息中的语句依次输入到记忆神经网络中进行训练,输入到记忆神经网络中的语句以其中每个词语对应的词向量来代替,即,将语句中每个词语对应的词向量输入到记忆神经网络,同时将语句对应的时间向量一起输入到记忆神经网络中,该记忆神经网络可以优选为基于循环神经网络的长短时记忆神经网络(即LSTM+Bidirectional RNN)。
通过记忆神经网络对提取的文本信息进行训练,得到神经网络模型。以语句为单位将其中的词语对应的词向量及其时间向量输入到记忆神经网络,机器可以记忆语句中的时间、词语及其组合形式,并以神经网络模型中的参数(神经网络模型中参数确定,大部分为矩阵)记忆这些时间、词语及其组合。相对于现有技术中采用人工建立正确的词汇库,并进行文本匹配,来识别错别字的方式,本实施例通过记忆神经网络来对没有错别字的文本进行训练,得到神经网络模型,再利用该神经网络模型来识别文本中的错别字,无需人工建立词汇库,即可根据词语组合以及语句来识别其中的错别字,可以根据上下文语义以及时间信息,有效、快速地识别出文本中的错别字。
根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字的识别率低的技术问题。
优选地,在确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,模型训练方法还包括:获取目标文本库,目标文本库所包含的文本为不包含有错别字的文本;利用词向量模型对目标文本库进行训练,以生成目标文本库中的词语对应的词向量,得到第一训练集。
本实施例的目标文本库,可以是包含有各种词语的词库,例如新华词典、成语词典、文章等不包含错别字的文本库,获取目标文本库用以作为词向量训练集。词向量模型可以是现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相同的多维数组,即词向量,该词向量的维数为可以根据词向量训练集来定义,比如将“一”可能标记为[1,0,0,……],将“高兴”可能标记为[0,1,0,……]。
本申请实施例中,可以根据预先训练得到的词向量训练集中每个词语的词向量,以便于从中查询对用于进行神经网络模型训练的文本信息中每个词语的词向量。
需要说明的是,本申请实施例还可以是生成每个标点符号对应的词向量。
优选地,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量包括:对文本信息中每条语句进行分词处理,并将文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;从第一训练集中查找第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
对于用于进行神经网络模型训练的文本信息,先对其进行分词处理,将其中每条语句的时间信息加入到该语句中,得到包含有时间信息的词语集合即第二训练集,从上述中得到的第一训练集中查询第二训练集中每个词语对应的词向量,从而确定出上述文本信息的每条语句中每个词语的词向量。
具体地,可以利用现有分词工具,对提取的文本信息进行分词处理,并将时间戳加入到每个语句中,作为第二训练集。分词后的文本由词组成,如将“(2015年9月)王五副经理视察厂房”分词为“(2015,9)王五副经理视察厂房”或者“(2015,9)王五副经理视察厂房”。其中,时间向量可以根据年、月、日以及词向量的维数,定义与词向量维数相同的时间向量,年、月、日缺省的情况下,对应向量相应位置为0。例如时间向量为[2015,10,9,.......],表示文本发布时间为2015年10月9日。
优选地,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,模型训练方法还包括:将每条语句中的每个词语对应的词向量标记为预设标识,其中,预设标识表示词向量对应的词语为非错别字,以使得在利用神经网络模型识别出非错别字时,将非错别字的词语标记为预设标识。
本申请实施例中,输入到记忆神经网络的每条语句中每个词语均标记为预设标识,例如“1”,这样,在对文本进行训练得到神经网络模型时,神经网络模型中参数会记忆这些词语标识为预设标识。当利用神经网络模型来识别待测文本时,其输出结果中会将待测文本中没有错别字的词语标记为该预设标识,而出现错别字的词语则不标记,或者标记为其他标识,以便于快速筛选出待测文本中的错别字。
本申请实施例的模型训练方法的一种可选方式包括:
步骤一、获取可靠的文本库(如新华词典、成语词典、文章等不包含错别字的文本库)即目标文本库,作为词向量的训练集1即第一训练集。
步骤二、使用词向量模型训练训练集1,得到训练集中每个词(包括标点符号)的词向量,根据年、月、日以及词向量的维数,定义与词向量维数相同的时间向量,年、月、日缺省的情况下,对应向量相应位置为0。其中,词向量模型可利用现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相同的唯一的多维数组,即词向量,该词向量的维数可以预先定义,比如将“王五副经理”中的“副经理”可能标记为[0,0,0,0,0,1.......];同时该词向量的时间向量为[2015,10,9,.......],表示2015年10月9日获取的文本中,王五为副经理。
步骤三、获取可靠的由大量句子组成的文本数据源中提取文本信息,同时提取每段文本相应的时间信息,作为文本训练集。其中,可靠的大量句子组成的文本数据源表示:没有错别字的文本数据源,如从人民日报、中国政府网等渠道获取。
步骤四、利用现有分词工具,对上述文本训练集进行分词处理,并将时间戳加入到每个句子中,得到训练集2即第二训练集。其中,分词后的文本为词组成,如将“(2015年9月)王五副经理视察厂房”分词为“(2015,9)王五副经理视察厂房”或者“(2015,9)王五副经理视察厂房”。
步骤五、以训练集2的语句为单位,从训练集1找出该语句中每个词语对应的词向量,并将时间向量和词向量输入循环神经网络的长短时记忆神经网络(即LSTM+Bidirectional RNN),训练得到神经网络模型(模型中参数确定,并带有时间戳)。其中,以加入时间向量的词向量组成的语句输入神经网络,机器可以记忆句子中的时间、词语及其组合形式,并以模型中的参数记忆这些组合。
通过利用带有时间戳的文本训练神经网络模型,能够识别文本中最新的词语组合和用法和上下文,准确地识别疑似错别字。
根据本申请实施例还提供了一种错别字识别方法,该错别字识别方法可以用于通过本申请上述实施例的模型训练方法训练得到的神经网络模型来识别错别字。如图2所示,该错别字识别方法包括:
步骤S202,获取待测文本及其每条语句发布的时间信息。
步骤S204,根据时间信息生成每条语句对应的时间向量。
时间向量可以是按照预设规则对每个时间点(例如精确到日)的时间定义一组多维数组,用于唯一表示该时间点,例如时间向量为[2015,10,9,……]表示文本发布时间为2015年10月9日。
步骤S206,对待测文本进行分词处理,确定出每个词语对应的词向量。
分词处理后的每个词语可以从本申请实施例中的第一训练集中查询其相应的词向量。
步骤S208,以待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用神经网络模型识别出待测文本中的错别字。
本实施例中的神经网络模型为本申请上述实施例的模型训练方法训练得到的神经网络模型。
由于该神经网络模型是通过记忆神经网络来对没有错别字的文本进行训练得到,神经网络模型中的参数(神经网络模型中参数确定,大部分为矩阵)可以记忆这些时间、词语及其组合。相对于现有技术中采用人工建立正确的词汇库,并进行文本匹配,来识别错别字的方式,本实施例通过记忆神经网络来对没有错别字的文本进行训练,得到神经网络模型,再利用该神经网络模型来识别文本中的错别字,无需人工建立词汇库,即可根据词语组合以及语句来识别其中的错别字,可以根据上下文语义以及时间信息,有效、快速地识别出文本中的错别字。
将待测文本的词向量输入训练好的神经网络模型,通过神经网络模型的计算,将输出结果中每个词语进行标记,比如非错别字标为:1,错别字标为:-1,进而可筛选出错别字。
本申请实施例还提供了一种模型训练装置,该装置可以用于执行本申请实施例的模型训练方法,如图3所示,该模型训练装置包括:提取单元301、确定单元303和训练单元305。
提取单元301用于从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本。
预设文本数据源可以是人民日报、中国政府网等资源网站,可以是经过纠正后不包含有错别字的文本数据源。该预设文本数据源中包含有大量的没有错别字的文本,从中提取出这些文本信息。
本实施例中,在提取文本信息的同时还提取文本信息对应的时间信息,该时间信息可以是相应的文本发布的时间,例如人民日报发表该文本的时间,网站发布文本的时间等。
确定单元303用于确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间。
对上述提取出的文本信息,确定出其中每个词语对应的词向量,每个词语的词向量用一组多维数组来表示,不同的词语对应的词向量各不相同。其中,词语的词向量可以是已经预先定义好的,在提取出文本信息之后,从预先定义的词向量中查询出文本信息中每个词语的词向量。也可以按照预先设定的词向量生成规则,生成每个词语的词向量。
对于文本信息中的语句,确定出每条语句对应的时间向量。时间向量可以是按照预设规则对每个时间点(例如精确到日)的时间定义一组多维数组,用于唯一表示该时间点,例如时间向量为[2015,10,9,.......]表示文本发布时间为2015年10月9日。
训练单元305用于以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,神经网络模型用于识别文本中的错别字。
本实施例中,在确定出文本信息中所包含的每个词语的词向量之后,以文本信息中的语句为单位,将文本信息中的语句依次输入到记忆神经网络中进行训练,输入到记忆神经网络中的语句以其中每个词语对应的词向量来代替,即,将语句中每个词语对应的词向量输入到记忆神经网络,同时将语句对应的时间向量一起输入到记忆神经网络中,该记忆神经网络可以优选为基于循环神经网络的长短时记忆神经网络(即LSTM+Bidirectional RNN)。
通过记忆神经网络对提取的文本信息进行训练,得到神经网络模型。以语句为单位将其中的词语对应的词向量及其时间向量输入到记忆神经网络,机器可以记忆语句中的时间、词语及其组合形式,并以神经网络模型中的参数(神经网络模型中参数确定,大部分为矩阵)记忆这些时间、词语及其组合。相对于现有技术中采用人工建立正确的词汇库,并进行文本匹配,来识别错别字的方式,本实施例通过记忆神经网络来对没有错别字的文本进行训练,得到神经网络模型,再利用该神经网络模型来识别文本中的错别字,无需人工建立词汇库,即可根据词语组合以及语句来识别其中的错别字,可以根据上下文语义以及时间信息,有效、快速地识别出文本中的错别字。
根据本申请实施例,通过从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本,确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间,以及以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,以便于利用神经网络模型来识别文本中的错别字,利用了文字的时效性,提高了对文本中错别字的识别率,解决了现有技术中文本中错别字的识别率低的技术问题。
优选地,模型训练装置还包括:获取单元,用于在确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,获取目标文本库,目标文本库所包含的文本为不包含有错别字的文本;生成单元,用于利用词向量模型对目标文本库进行训练,以生成目标文本库中的词语对应的词向量,得到第一训练集。
本实施例的目标文本库,可以是包含有各种词语的词库,例如新华词典、成语词典、文章等不包含错别字的文本库,获取目标文本库用以作为词向量训练集。词向量模型可以是现有的成熟模型,该模型可以根据输入文本,给每一个词生成一个维数相同的多维数组,即词向量,该词向量的维数为可以根据词向量训练集来定义,比如将“一”可能标记为[1,0,0,……],将“高兴”可能标记为[0,1,0,……]。
本申请实施例中,可以根据预先训练得到的词向量训练集中每个词语的词向量,以便于从中查询对用于进行神经网络模型训练的文本信息中每个词语的词向量。
需要说明的是,本申请实施例还可以是生成每个标点符号对应的词向量。
优选地,确定单元包括:分词模块,用于对文本信息中每条语句进行分词处理,并将文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;查找模块,用于从第一训练集中查找第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
对于用于进行神经网络模型训练的文本信息,先对其进行分词处理,将其中每条语句的时间信息加入到该语句中,得到包含有时间信息的词语集合即第二训练集,从上述中得到的第一训练集中查询第二训练集中每个词语对应的词向量,从而确定出上述文本信息的每条语句中每个词语的词向量。
具体地,可以利用现有分词工具,对提取的文本信息进行分词处理,并将时间戳加入到每个语句中,作为第二训练集。分词后的文本由词组成,如将“(2015年9月)王五副经理视察厂房”分词为“(2015,9)王五副经理视察厂房”或者“(2015,9)王五副经理视察厂房”。其中,时间向量可以根据年、月、日以及词向量的维数,定义与词向量维数相同的时间向量,年、月、日缺省的情况下,对应向量相应位置为0。例如时间向量为[2015,10,9,……],表示文本发布时间为2015年10月9日。
优选地,模型训练装置还包括:标记模块,用于在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,将每条语句中的每个词语对应的词向量标记为预设标识,其中,预设标识表示词向量对应的词语为非错别字,以使得在利用神经网络模型识别出非错别字时,将非错别字的词语标记为预设标识。
本申请实施例中,输入到记忆神经网络的每条语句中每个词语均标记为预设标识,例如“1”,这样,在对文本进行训练得到神经网络模型时,神经网络模型中参数会记忆这些词语标识为预设标识。当利用神经网络模型来识别待测文本时,其输出结果中会将待测文本中没有错别字的词语标记为该预设标识,而出现错别字的词语则不标记,或者标记为其他标识,以便于快速筛选出待测文本中的错别字。
所述模型训练装置包括处理器和存储器,上述提取单元301、确定单元303和训练单元305等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来训练得到神经网络模型。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:从预设文本数据源中提取文本信息以及文本信息中每条语句对应的时间信息,其中,预设文本数据源中所包含的文本为不包含有错别字的文本;确定出文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,词向量为用于唯一表示词语的多维数组,每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,神经网络模型用于识别文本中的错别字。
根据本申请实施例还提供了一种错别字识别装置,该错别字识别装置可以用于执行本申请实施例提供的错别字识别方法。如图4所示,该错别字识别装置包括:时间获取单元401、向量生成单元403、向量确定单元405和识别单元407。
时间获取单元401用于获取待测文本及其每条语句发布的时间信息。
向量生成单元403用于根据时间信息生成每条语句对应的时间向量。
时间向量可以是按照预设规则对每个时间点(例如精确到日)的时间定义一组多维数组,用于唯一表示该时间点,例如时间向量为[2015,10,9,……]表示文本发布时间为2015年10月9日。
向量确定单元405用于对待测文本进行分词处理,确定出每个词语对应的词向量。
分词处理后的每个词语可以从本申请实施例中的第一训练集中查询其相应的词向量。
识别单元407用于以待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用神经网络模型识别出待测文本中的错别字。
本实施例中的神经网络模型为本申请上述实施例的模型训练方法训练得到的神经网络模型。
由于该神经网络模型是通过记忆神经网络来对没有错别字的文本进行训练得到,神经网络模型中的参数(神经网络模型中参数确定,大部分为矩阵)可以记忆这些时间、词语及其组合。相对于现有技术中采用人工建立正确的词汇库,并进行文本匹配,来识别错别字的方式,本实施例通过记忆神经网络来对没有错别字的文本进行训练,得到神经网络模型,再利用该神经网络模型来识别文本中的错别字,无需人工建立词汇库,即可根据词语组合以及语句来识别其中的错别字,可以根据上下文语义以及时间信息,有效、快速地识别出文本中的错别字。
将待测文本的词向量输入训练好的神经网络模型,通过神经网络模型的计算,将输出结果中每个词语进行标记,比如非错别字标为:1,错别字标为:-1,进而可筛选出错别字。
所述错别字识别装置包括处理器和存储器,上述时间获取单元401、向量生成单元403、向量确定单元405和识别单元407等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来识别文本中的错别字。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待测文本及其每条语句发布的时间信息;根据时间信息生成每条语句对应的时间向量;对待测文本进行分词处理,确定出每个词语对应的词向量;以待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到神经网络模型中,利用神经网络模型识别出待测文本中的错别字。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种模型训练方法,其特征在于,包括:
从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;
确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;
以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。
2.根据权利要求1所述的模型训练方法,其特征在于,在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,所述模型训练方法还包括:
获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;
利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。
3.根据权利要求2所述的模型训练方法,其特征在于,确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量包括:
对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;
从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
4.根据权利要求1所述的模型训练方法,其特征在于,在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,所述模型训练方法还包括:
将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。
5.一种错别字识别方法,其特征在于,包括:
获取待测文本及其每条语句发布的时间信息;
根据所述时间信息生成每条语句对应的时间向量;
对所述待测文本进行分词处理,确定出每个词语对应的词向量;
以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。
6.一种模型训练装置,其特征在于,包括:
提取单元,用于从预设文本数据源中提取文本信息以及所述文本信息中每条语句对应的时间信息,其中,所述预设文本数据源中所包含的文本为不包含有错别字的文本;
确定单元,用于确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量,其中,所述词向量为用于唯一表示词语的多维数组,所述每个词语所在的语句对应的时间向量为用于唯一表示该词语所在语句的发布时间;
训练单元,用于以文本信息中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到记忆神经网络,训练得到神经网络模型,其中,所述神经网络模型用于识别文本中的错别字。
7.根据权利要求6所述的模型训练装置,其特征在于,所述模型训练装置还包括:
获取单元,用于在确定出所述文本信息中每个词语对应的词向量以及每个词语所在的语句对应的时间向量之前,获取目标文本库,所述目标文本库所包含的文本为不包含有错别字的文本;
生成单元,用于利用词向量模型对所述目标文本库进行训练,以生成所述目标文本库中的词语对应的词向量,得到第一训练集。
8.根据权利要求7所述的模型训练装置,其特征在于,所述确定单元包括:
分词模块,用于对所述文本信息中每条语句进行分词处理,并将所述文本信息中每条语句对应的时间信息加入到对应的语句中,得到第二训练集;
查找模块,用于从所述第一训练集中查找所述第二训练集中每个词语对应的词向量,并生成每个词语所在语句对应的时间向量。
9.根据权利要求6所述的模型训练装置,其特征在于,所述模型训练装置还包括:
标记模块,用于在将每条语句中的每个词语对应的词向量输入到记忆神经网络之前,将每条语句中的每个词语对应的词向量标记为预设标识,其中,所述预设标识表示词向量对应的词语为非错别字,以使得在利用所述神经网络模型识别出非错别字时,将非错别字的词语标记为所述预设标识。
10.一种错别字识别装置,其特征在于,包括:
时间获取单元,用于获取待测文本及其每条语句发布的时间信息;
向量生成单元,用于根据所述时间信息生成每条语句对应的时间向量;
向量确定单元,用于对所述待测文本进行分词处理,确定出每个词语对应的词向量;
识别单元,用于以所述待测文本中的语句为单位,将每条语句对应的时间向量以及该语句中的每个词语对应的词向量输入到权利要求1至4中任一项所述的模型训练方法训练得到的神经网络模型中,利用所述神经网络模型识别出所述待测文本中的错别字。
CN201510849928.1A 2015-11-27 2015-11-27 文本数据处理方法及装置和错别字识别方法及装置 Active CN106815592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510849928.1A CN106815592B (zh) 2015-11-27 2015-11-27 文本数据处理方法及装置和错别字识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510849928.1A CN106815592B (zh) 2015-11-27 2015-11-27 文本数据处理方法及装置和错别字识别方法及装置

Publications (2)

Publication Number Publication Date
CN106815592A true CN106815592A (zh) 2017-06-09
CN106815592B CN106815592B (zh) 2019-12-03

Family

ID=59103260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510849928.1A Active CN106815592B (zh) 2015-11-27 2015-11-27 文本数据处理方法及装置和错别字识别方法及装置

Country Status (1)

Country Link
CN (1) CN106815592B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522531A (zh) * 2017-09-18 2019-03-26 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN111737982A (zh) * 2020-06-29 2020-10-02 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN104934028A (zh) * 2015-06-17 2015-09-23 百度在线网络技术(北京)有限公司 用于语音合成的深度神经网络模型的训练方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN104934028A (zh) * 2015-06-17 2015-09-23 百度在线网络技术(北京)有限公司 用于语音合成的深度神经网络模型的训练方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522531A (zh) * 2017-09-18 2019-03-26 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN109522531B (zh) * 2017-09-18 2023-04-07 腾讯科技(北京)有限公司 文案生成方法和装置、存储介质及电子装置
CN111737982A (zh) * 2020-06-29 2020-10-02 武汉虹信技术服务有限责任公司 一种基于深度学习的汉语文本错别字检测方法

Also Published As

Publication number Publication date
CN106815592B (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN110704633B (zh) 命名实体识别方法、装置、计算机设备及存储介质
CN109446524B (zh) 一种语音质检方法及装置
CN106815194A (zh) 模型训练方法及装置和关键词识别方法及装置
CN107291783B (zh) 一种语义匹配方法及智能设备
CN106815193A (zh) 模型训练方法及装置和错别字识别方法及装置
CN109408821B (zh) 一种语料生成方法、装置、计算设备及存储介质
CN107544726B (zh) 基于人工智能的语音识别结果纠错方法、装置及存储介质
CN106815192A (zh) 模型训练方法及装置和语句情感识别方法及装置
CN111506696A (zh) 基于少量训练样本的信息抽取方法及装置
CN107491536B (zh) 一种试题校验方法、试题校验装置及电子设备
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN105653547B (zh) 一种提取文本关键词的方法和装置
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
CN112860841A (zh) 一种文本情感分析方法、装置、设备及存储介质
CN112632278A (zh) 一种基于多标签分类的标注方法、装置、设备及存储介质
CN109710933A (zh) 训练语料的获取方法、装置、计算机设备和存储介质
CN104142912A (zh) 一种精确的语料类别标注方法及装置
US20190317950A1 (en) Interest tag determining method, computer device, and storage medium
CN112926308A (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN110008473A (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN111492364A (zh) 数据标注方法、装置及存储介质
CN113343024B (zh) 对象推荐方法、装置、电子设备及存储介质
CN106815592A (zh) 模型训练方法及装置和错别字识别方法及装置
CN109388804A (zh) 利用深度学习模型的证券研报核心观点提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant