CN107885716A - 文本识别方法及装置 - Google Patents
文本识别方法及装置 Download PDFInfo
- Publication number
- CN107885716A CN107885716A CN201610864799.8A CN201610864799A CN107885716A CN 107885716 A CN107885716 A CN 107885716A CN 201610864799 A CN201610864799 A CN 201610864799A CN 107885716 A CN107885716 A CN 107885716A
- Authority
- CN
- China
- Prior art keywords
- sample
- phrase
- phrases
- current
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012549 training Methods 0.000 claims abstract description 262
- 239000002243 precursor Substances 0.000 claims description 20
- 238000013507 mapping Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 238000013508 migration Methods 0.000 abstract 1
- 230000005012 migration Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 40
- 238000009499 grossing Methods 0.000 description 24
- 230000011218 segmentation Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005034 decoration Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本识别方法及装置。其中,该方法包括:获取待识别的文本数据;将文本数据输入识别模型,其中,识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到模型参数;获取识别模型输出的与文本数据对应的识别后的目标文本数据。本发明解决了采用现有的文本识别技术无法保证文本识别的准确性的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本识别方法及装置。
背景技术
如今,随着互联网的快速发展,使获得海量的文本数据成为可能。例如,目前很多场合都会应用到对语音文本或文字文本的文本识别技术,且在对文本识别的过程中,为了获得更高的识别准确率,不少识别模型的模型阶数已经上升到四阶、五阶甚至更高,所产生的文本数据的数据量也在不断增长。其中,在现有的文本识别过程中,常用的用于识别文本的训练模型是经典工具SRILM,其中,SRILM是一个单机模型训练的工具。
然而,随着识别的数据量的增长,所消耗的内存也会越来越大,因而,在继续使用单机模型训练的工具生成用于识别文本的模型时,将受到运算及内存资源的限制,出现内存溢出、训练中断的问题,从而影响模型的生成效率,及所生成的模型的准确性;进一步,在使用上述所生成的模型进行文本识别时,将大大影响文本识别的准确性。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本识别方法及装置,以至少解决采用现有的文本识别技术无法保证文本识别的准确性的技术问题。
根据本发明实施例的一个方面,提供了一种文本识别方法,包括:获取待识别的文本数据;将上述文本数据输入识别模型,其中,上述识别模型根据多个训练节点分别训练得到的模型参数生成,每一个上述训练节点用于根据获取到的样本短语的识别系数得到上述模型参数;获取上述识别模型输出的与上述文本数据对应的识别后的目标文本数据。
根据本发明实施例的另一方面,还提供了一种文本识别装置,包括:第一获取单元,用于获取待识别的文本数据;输入识别单元,用于将上述文本数据输入识别模型,其中,上述识别模型根据多个训练节点分别训练得到的模型参数生成,每一个上述训练节点用于根据获取到的样本短语的识别系数得到上述模型参数;第二获取单元,用于获取上述识别模型输出的与上述文本数据对应的识别后的目标文本数据。
在本发明实施例中,通过将获取到的待识别的文本数据输入到识别模型中,其中,该识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到上述模型参数,以获取上述识别模型输出的与文本数据对应的识别后的目标文本数据。也就是说,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性,进而实现利用上述训练过程训练出的识别模型进行文本识别,以达到提高文本识别的准确性的目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本识别方法的应用环境示意图;
图2是根据本发明实施例的一种可选的文本识别方法的流程图;
图3是根据本发明实施例的一种可选的文本识别方法中Trie树的示意图;
图4是根据本发明实施例的一种可选的文本识别装置的示意图;
图5是根据本发明实施例的一种可选的文本识别方法的示意图;
图6是根据本发明实施例的一种可选的文本识别服务器的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
在本发明实施例中,提供了一种上述文本识别方法的实施例。作为一种可选的实施方式,该文本识别方法可以但不限于应用于如图1所示的应用环境中,通过网络104从终端102获取待识别的文本数据,并将文本数据输入位于服务器106中的识别模型中,其中,该识别模型根据多个训练节点(如图所示服务器108-1,服务器108-2至服务器108-n)分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到上述模型参数,然后获取该识别模型输出的与文本数据对应的识别后的目标文本数据。
需要说明的是,在本实施例中,包括上述识别模型的服务器可以为独立的处理服务器,如图1所示,也可以为多个训练节点中的一个服务器(图中未示出),例如,应用于hadoop分布式系统中,本实施例中对此不做任何限定。
在本实施例中,上述文本识别方法通过将获取到的待识别的文本数据输入到识别模型中,其中,该识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到上述模型参数,以获取上述识别模型输出的与文本数据对应的识别后的目标文本数据。也就是说,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性,进而实现利用上述训练过程训练出的识别模型进行文本识别,以达到提高文本识别的准确性的目的。
可选地,在本实施例中,上述终端可以包括但不限于以下至少之一:手机、平板电脑、笔记本电脑、台式PC机、数字电视及其他用于获取待识别的文本数据的硬件设备。上述网络可以包括但不限于以下至少之一:广域网、城域网、局域网。上述只是一种示例,本实施例对此不做任何限定。
根据本发明实施例,提供了一种文本识别方法,如图2所示,该方法包括:
S202,获取待识别的文本数据;
S204,将文本数据输入识别模型,其中,识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到模型参数;
S206,获取识别模型输出的与文本数据对应的识别后的目标文本数据。
可选地,在本实施例中,上述文本识别方法可以但不限于应用于语音文本和文字文本的识别过程,如应用于将采集到的语音识别成文字的过程中,如应用于对获取到的文字文本进行精确识别的过程中。上述仅是一种示例,本实施例中对应用场景不做任何限定。
需要说明的是,通过将获取到的待识别的文本数据输入到识别模型中,其中,该识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到上述模型参数,以获取上述识别模型输出的与文本数据对应的识别后的目标文本数据。也就是说,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性,进而实现利用上述训练过程训练出的识别模型进行文本识别,以达到提高文本识别的准确性的目的。
可选地,在本实施例中,在获取待识别的文本数据之前,可以但不限于通过对获取到的样本文本数据进行训练,以生成识别模型。其中,在本实施例中,上述样本文本数据中包括多个样本短语,样本短语可以通过文本分词得到,上述多个训练节点可以但不限于为基于Hadoop分布式系统中的节点,分别执行执行训练,以获取用于生成识别模型的模型参数。
可选地,在本实施例中,上述样本短语中可以但不限于包括一个或多个单词,其中,单词为具有独立含义的词组,例如,分词后的样本短语:“<s>我们去打球<./s>”,其中,这里的样本短语包括5个单词,分别为:“<s>”、“我们”、“去”、“打球”、“</s>”,其中<s>是开始标识符,</s>是结束标识符。
需要说明的是,本实施例中的样本文本数据可以但不限于为对原始样本数据(如采集到的原始语料)进行一轮MapReduce操作(第一轮MapReduce操作)后得到的N-Gram数据,其中,N-Gram数据中包括分词后的多个样本短语。仍以“我们去打球”为例,分词后得到的N-Gram数据(包括多个样本短语的样本文本数据)包括:“<s>”、“<s>我们”、“<s>我们去”、“<s>我们去打球”、“我们”、“我们去”、“我们去打球”、“我们去打球</s>”、“去”、“去打球”、“去打球</s>”、“打球”、“打球</s>”、“</s>”。
此外,在本实施例中,根据单词数量,可以对样本文本数据中的样本短语按照阶次进行划分,其中,阶次用于指示一个样本短语中所包含的单词数量,如上述仍以“我们去打球”为例,对应的N-Gram数据中包括一阶样本短语:“<s>”、“我们”、“去”、“打球”、“</s>”;二阶样本短语:“<s>我们”、“我们去”、“去打球”、“打球</s>”;三阶样本短语:“<s>我们去”、“我们去打球”、“去打球</s>”;四阶样本短语:“<s>我们去打球”、“我们去打球</s>”。
可选地,在本实施例中,对上述样本文本数据再进行一轮MapReduce操作(第二轮MapReduce操作),以获取样本文本数据中样本短语的词频r及文法系数dr,其中,文法系数dr用于根据上述词频r获取样本短语对应的识别系数文法概率。
可选地,在本实施例中,上述模型参数可以但不限于根据各个训练节点获取到的样本短语的识别系数得到,其中,该识别系数可以包括但不限于:样本短语的文法概率及回退系数。需要说明的是,在本实施例中,上述文法概率可以但不限于根据样本短语在对应的训练节点出现的样本概率和/或文法系数得到。
可选地,在本实施例中,利用样本短语生成识别模型包括:按照样本短语的前驱词,将样本文本数据中的样本短语分发至多个训练节点,其中,样本短语的前驱词为样本短语中当前词的前一个单词,当前词为样本短语中的最后一个单词,单词为具有独立含义的词组;获取多个训练节点分别对接收到的样本短语训练后得到的模型参数;合并模型参数以生成识别模型。
也就是说,以样本短语的前驱词为参考,将样本文本数据(即N-Gram数据)中的样本文本短语分发至多个训练节点,从而实现分别由多个训练节点对各自接收到的样本短语进行训练,以获取用于生成识别模型的模型参数(第三轮MapReduce操作)。需要说明的是,在本实施例中,上述各个训练节点中获取到的样本短语可以但不限于包括不同阶次的样本短语。
例如,以训练节点B为例,对应的前驱词以“我们”为例,则样本文本数据(即N-Gram数据)中前驱词为“我们”的样本短语将被分发至训练节点B,例如,仍以“我们去打球”为例,训练节点B将获取到的样本数据包括:“我们去”、“<s>我们去”。
其中,训练节点B可以但不限于通过对接收到的上述样本短语按照阶次进行训练,以获取各个样本短语对应的识别系数,从而实现获取由训练节点B中各个阶次的各个样本短语得到的识别系数生成得到的训练节点B的模型参数。
其中,上述训练节点在对各个阶次的样本短语进行训练时,可以但不限于通过数据平滑的方式进行训练。需要说明的是,数据平滑,用于克服由于许多合理的单词之间的搭配关系在样本文本数据中没有出现,所导致的数据稀疏问题,也称之为零概率问题。一方面它可以保证识别模型中任何概率均不为零,另一方面使识别模型参数概率分布趋向更加均匀,低概率(包括零概率)被调高,高概率被调低。这里数据平滑的算法有很多,包括有Good-Turing平滑、Katz平滑、Back-off平滑、线性插值平滑、Witten-Bell平滑等,本实施例中以Katz算法为例,下文不再赘述。
也就是说,各个训练节点利用数据平滑的方式对获取到的样本短语进行训练,以获取各个样本短语的识别系数:文法概率和回退系数,进一步,利用上述各个样本短语的识别系数获取该训练节点的模型参数,以便于通过将各个训练节点得到的模型参数合并生成用于文本识别过程的识别模型。
通过本申请提供的实施例,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性,进而实现利用上述训练过程训练出的识别模型进行文本识别,以达到提高文本识别的准确性的目的。
作为一种可选的方案,利用样本短语生成识别模型包括:
S1,按照样本短语的前驱词,将样本文本数据中的样本短语分发至多个训练节点,其中,样本短语的前驱词为样本短语中当前词的前一个单词,单词为具有独立含义的词组;
S2,获取多个训练节点分别对接收到的样本短语训练后得到的模型参数;
S3,合并模型参数以生成识别模型。
需要说明的是,在本实施例中,将样本文本数据中的样本短语分发至多个训练节点可以但不限于按照阶次分发,包括:
1)将样本文本数据中阶次为一阶的样本短语分别分发至多个训练节点;
2)将样本文本数据中阶次为大于等于二阶的样本短语按照样本短语的前驱词分别分发至多个训练节点。
也就是说,将阶次为一阶的样本短语均分发至每个训练节点,其中,由于一阶的样本短语计算量不大,因而并不影响各个训练节点的训练效率。此外,将阶次为大于等于二阶的样本短语按照前驱词分别分发至不同的训练节点,每个训练节点将分别接收到以一个前驱词为参考分发的样本短语,其中,这些样本短语中包括不同阶次的样本短语。这里,以样本短语的前驱词为分发依据,将保证在每个训练节点中包含所有训练需要的所有统计信息。
可选地,在本实施例中,在将样本文本数据中的样本短语分发至多个训练节点时,还将把与样本短语对应的文法系数分发到对应的训练节点中。其中,本实施例中的文法系数(也称作折扣率,下文不再赘述)用于获取识别系数中与样本短语对应的文法概率(也称作平滑概率)。需要说明的是,这里文法系数可以与样本短语同时同步发送给对应的训练节点,也可以与样本短语分开异步发送,根据不同的场景需求可以采用不同的分发方式,本实施例中对此不做任何限定。此外,这里的文法系数可以但不限于为在分发前,在第二轮MapReduce操作后,根据各个样本短语的词频得到。
可选地,在本实施例中,各个训练节点在接收到分发的样本短语和对应的文本系数后,将分别开始执行对应的数据训练(即数据平滑处理),这里可以但不限于借助前缀树Trie树执行数据训练过程。以将上述文本识别方法应用于Hadoop系统为例,采用Trie树为基础的数据结构,借助Trie树的数据结构获取训练节点中各个样本短语在该训练节点出现的样本概率。
例如,按照单词顺序创建与样本短语中的单词具有映射关系的Trie树,如图3所示的Trie树,每个子节点用于记录样本短语中的一个单词及对应的词频,子节点所记录的单词wi为样本短语中位于子节点相邻根节点所记录的单词wi-1的下一个单词。例如,按照阴影所指示,查找一个样本短语中的各个单词。
进一步,通过Trie树中各个树节点记录的单词的词频获取样本短语的样本概率,如以样本短语w1w2...wi为例,可以将当前词为wi的样本短语在Trie树中记录的词频,与当前词为wi-1在Trie树中记录的词频的比值,作为样本短语w1w2...wi的样本概率。其中,当前词为wi-1的词频可以但不限于通过对wi-1的下位子节点求和得到。需要说明的是,由于样本文本数据已被分发至各个训练节点,因而,各个训练节点根据与样本短语映射创建的Trie树的子节点不一定是完整的,因而,子节点的根节点所记录的词频无法保证准确性。也就是说,通过利用Trie树各个子节点(如i阶)所记录的词频的和,可以确定相邻根节点(如i-1阶)的词频,从而保证所获取的样本概率的准确性。
可选地,在本实施例中,上述合并模型参数以生成识别模型包括:按照样本短语的阶次将多个训练节点训练得到的模型参数合并,以生成识别模型。
通过本申请提供的实施例,通过根据样本短语的前驱词将样本短语分发至不同的训练节点进行训练,不仅可以提高训练的效率,还可以保证在每个训练节点中包含所有训练需要的所有统计信息,保证数据的独立性和完整性。
作为一种可选的方案,在将样本文本数据中的样本短语分发至多个训练节点时,还包括:
S1,按照样本文本数据中样本短语的阶次,重复执行以下步骤,直至遍历样本文本数据中的所有阶次,其中,阶次用于指示一个样本短语中所包含的单词数量,每个阶次中包括一个或多个样本短语:
S12,获取当前样本短语在所在当前阶次中的词频;根据词频获取与当前样本短语对应的文法系数,其中,文法系数用于获取当前样本短语的文法概率;
S14,判断当前样本短语是否为当前阶次中的最后一个样本短语;
S16,若当前样本短语不是当前阶次中的最后一个样本短语,则获取当前阶次中位于当前样本短语之后的下一个样本短语作为当前样本短语;
S18,若当前样本短语是当前阶次中的最后一个样本短语,则获取位于当前阶次之后的下一个阶次作为当前阶次,获取位于当前阶次之后的下一个阶次中的一个样本短语作为当前样本短语;
S2,将文法系数根据对应的当前样本短语分发至多个训练节点中对应的训练节点。
具体结合以下示例进行说明,在获取到样本文本数据N-Gram数据后,对其按照阶次进行第二轮MapReduce操作,获取其中各个样本短语的词频r及对应的文法系数dr。
例如,作为一种可选的实施方式,上述文法系数dr的计算公式可以如下:
其中,dr用于表示文法系数,r用于表示样本短语在所在阶次中的词频,ni用于表示在一个阶次中词频为i次的样本短语的统计数量,k用于表示预定系数,
也就是说,遍历N-Gram数据中的样本短语执行MapReduce操作,通过上述方式获取样本短语的词频及对应的文法系数。
通过本申请提供的实施例,在将样本文本数据中的样本短语分发至多个训练节点时,获取并分发对应的文法系数,从而节省训练时间,达到提高训练效率及识别模型生成效率的目的。
作为一种可选的方案,获取多个训练节点分别对接收到的样本短语训练后得到的模型参数包括:分别将多个训练节点各自所接收到的样本数据映射到与训练节点相对应的前缀树中,前缀树用于指示对应的训练节点所接收到的样本短语中单词的排列关系;
其中,每个训练节点根据对应的前缀树执行以下步骤:
S1,根据前缀树获取样本短语的样本概率,其中,样本概率用于指示样本短语在训练节点中出现的概率;
S2,根据样本短语的样本概率和/或与样本短语对应的文法系数得到样本短语的文法概率;
S3,根据样本短语的文法概率获取样本短语的回退系数,以得到训练节点的模型参数。
可选地,在本实施例中,根据样本短语的样本概率和/或与样本短语对应的文法系数得到样本短语的文法概率包括:
S1,按照训练节点中样本短语的阶次,重复执行以下步骤,直至遍历训练节点中的所有阶次:
S12,对阶次为n阶的样本短语按照以下公式获取文法概率:
其中,P(wn|w1...wn-1)用于表示在阶次为n阶的样本短语中,在前n-1个单词为w1...wn-1的情况下,当前词为wn的样本短语的文法概率,k为预定参数,r用于表示前n-1个单词为w1...wn-1,当前词为wn的样本短语在所在阶次中的词频,dr用于表示与前n-1个单词为w1...wn-1,当前词为wn的样本短语对应的文法系数,用于表示前n-1个单词为w1...wn-1,当前词为wn的样本短语的样本概率。可选地,在本实施例中,根据样本短语的文法概率获取样本短语的回退系数包括:
其中,用于表示前n-1个单词为w1...wn-1的样本短语的回退系数,用于表示在阶次为n阶的样本短语中,在前n-1个单词为w1...wn-1,当前词为wi的样本短语的词频大于0的情况下,对前n-1个单词为w1...wn-1,当前词为wi的样本短语的文法概率求和,用于表示在阶次为n阶的样本短语中,在前n-2个单词为w2...wn-1,当前词为wi的样本短语的词频大于0的情况下,对前n-2个单词为w2...wn-1,当前词为wi的样本短语的文法概率求和。
通过本申请提供的实施例,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性。
作为一种可选的方案,在获取识别模型输出的与文本数据对应的识别后的目标文本数据之前,还包括:
S1,根据识别模型获取与待识别的文本数据中的各个文本短语分别对应的识别概率,其中,文本数据中包括多个文本短语;
S2,根据识别概率确定识别模型输出的目标文本数据。
可选地,在本实施例中,根据识别模型获取与待识别的文本数据中的各个文本短语分别对应的识别概率包括:
其中,P(wm|w1...wm-1)用于表示对于文本数据中阶次为m阶的文本短语,在前m-1个单词为w1...wm-1的情况下,当前词为wm的文本短语的识别概率,当前词为文本短语中的最后一个单词,单词为具有独立含义的词组,阶次用于指示一个文本短语中所包含的单词数量,r用于表示前m-1个单词为w1...wm-1,当前词为wm的文本短语在所在阶次中的词频,用于表示前m-1个单词为w1...wm-1,当前词为wm的文本短语的文本概率,用于表示前m-1个单词为w1...wm-1的文本短语的回退系数,用于表示前m-2个单词为w2...wm-1,当前词为wm的文本短语的文本概率。
可选地,在本实施例中,根据识别概率确定识别模型输出的目标文本数据包括:
S1,在识别概率大于预定阈值时,将识别概率所指示的识别出的短语作为目标文本数据中的目标短语。
可选地,在本实施例中,上述预定阈值可以但不限于根据不同场景设置为不同取值,本实施例中对此不做任何限定。
通过本申请提供的实施例,根据上述训练过程获取的识别模型获取与待识别的文本数据中各个文本短语对应的识别概率,进而实现在识别概率大于预定阈值的情况下,将识别概率所指示的识别出的短语作为在目标文本数据中与上述文本短语对应的目标短语。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述文本识别方法的文本识别装置,如图4所示,该装置包括:
1)第一获取单元402,用于获取待识别的文本数据;
2)输入识别单元404,用于将文本数据输入识别模型,其中,识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到模型参数;
3)第二获取单元406,用于获取识别模型输出的与文本数据对应的识别后的目标文本数据。
可选地,在本实施例中,上述文本识别装置可以但不限于应用于语音文本和文字文本的识别过程,如应用于将采集到的语音识别成文字的过程中,如应用于对获取到的文字文本进行精确识别的过程中。上述仅是一种示例,本实施例中对应用场景不做任何限定。
需要说明的是,通过将获取到的待识别的文本数据输入到识别模型中,其中,该识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到上述模型参数,以获取上述识别模型输出的与文本数据对应的识别后的目标文本数据。也就是说,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性,进而实现利用上述训练过程训练出的识别模型进行文本识别,以达到提高文本识别的准确性的目的。
可选地,在本实施例中,还包括:第三获取单元,在获取待识别的文本数据之前,获取样本文本数据,其中,样本文本数据中包括多个样本短语,样本短语可以通过文本分词得到;生成单元,用于利用样本短语生成识别模型,其中,用于生成识别模型的模型参数根据以下识别系数得到:样本短语的文法概率及回退系数。其中,在本实施例中,上述样本文本数据中包括多个样本短语,上述多个训练节点可以但不限于为基于Hadoop分布式系统中的节点,分别执行执行训练,以获取用于生成识别模型的模型参数。
可选地,在本实施例中,上述样本短语中可以但不限于包括一个或多个单词,其中,单词为具有独立含义的词组,例如,分词后的样本短语:“<s>我们去打球</s>”,其中,这里的样本短语包括5个单词,分别为:“我们”、“去”、“打球”。其中<s>是开始标识符,</s>是结束标识符。
需要说明的是,本实施例中的样本文本数据可以但不限于为对原始样本数据(如采集到的原始语料)进行一轮MapReduce操作(第一轮MapReduce操作)后得到的N-Gram数据,其中,N-Gram数据中包括分词后的多个样本短语。仍以“我们去打球”为例,分词后得到的N-Gram数据(包括多个样本短语的样本文本数据)包括:“<s>”、“<s>我们”、“<s>我们去”、“<s>我们去打球”、“我们”、“我们去”、“我们去打球”、“我们去打球</s>”、“去”、“去打球”、“去打球</s>”、“打球”、“打球</s>”、“</s>”。
此外,在本实施例中,根据单词数量,可以对样本文本数据中的样本短语按照阶次进行划分,其中,阶次用于指示一个样本短语中所包含的单词数量,如上述仍以“我们去打球”为例,对对应的N-Gram数据中包括一阶样本短语:“<s>”、“我们”、“去”、“打球”、“</s>”;二阶样本短语:“<s>我们”、“我们去”、“去打球”、“打球</s>”;三阶样本短语:“<s>我们去”、“我们去打球”、“去打球</s>”;四阶样本短语:“<s>我们去打球”、“我们去打球</s>”。
可选地,在本实施例中,对上述样本文本数据再进行一轮MapReduce操作(第二轮MapReduce操作),以获取样本文本数据中样本短语的词频r及文法系数dr,其中,文法系数dr用于根据上述词频r获取样本短语对应的识别系数文法概率。
可选地,在本实施例中,上述模型参数可以但不限于根据各个训练节点获取到的样本短语的识别系数得到,其中,该识别系数可以包括但不限于:样本短语的文法概率及回退系数。需要说明的是,在本实施例中,上述文法概率可以但不限于根据样本短语在对应的训练节点出现的样本概率和/或文法系数得到。
可选地,在本实施例中,利用样本短语生成识别模型包括:按照样本短语的前驱词,将样本文本数据中的样本短语分发至多个训练节点,其中,样本短语的前驱词为样本短语中当前词的前一个单词,当前词为样本短语中的最后一个单词,单词为具有独立含义的词组;获取多个训练节点分别对接收到的样本短语训练后得到的模型参数;合并模型参数以生成识别模型。
也就是说,以样本短语的前驱词为参考,将样本文本数据(即N-Gram数据)中的样本文本短语分发至多个训练节点,从而实现分别由多个训练节点对各自接收到的样本短语进行训练,以获取用于生成识别模型的模型参数(第三轮MapReduce操作)。需要说明的是,在本实施例中,上述各个训练节点中获取到的样本短语可以但不限于包括不同阶次的样本短语。
例如,以训练节点B为例,对应的前驱词以“我们”为例,则样本文本数据(即N-Gram数据)中前驱词为“我们”的样本短语将被分发至训练节点B,例如,仍以“我们去打球”为例,训练节点B将获取到的样本数据包括:“我们去”、“<s>我们去”。
其中,训练节点B可以但不限于通过对接收到的上述样本短语按照阶次进行训练,以获取各个样本短语对应的识别系数,从而实现获取由训练节点B中各个阶次的各个样本短语得到的识别系数生成得到的训练节点B的模型参数。
其中,上述训练节点在对各个阶次的样本短语进行训练时,可以但不限于通过数据平滑的方式进行训练。需要说明的是,数据平滑,用于克服由于许多合理的单词之间的搭配关系在样本文本数据中没有出现,所导致的数据稀疏问题,也称之为零概率问题。一方面它可以保证识别模型中任何概率均不为零,另一方面使识别模型参数概率分布趋向更加均匀,低概率(包括零概率)被调高,高概率被调低。这里数据平滑的算法有很多,包括有Good-Turing平滑、Katz平滑、Back-off平滑、线性插值平滑、Witten-Bell平滑等,本实施例中以Katz算法为例,下文不再赘述。
也就是说,各个训练节点利用数据平滑的方式对获取到的样本短语进行训练,以获取各个样本短语的识别系数:文法概率和回退系数,进一步,利用上述各个样本短语的识别系数获取该训练节点的模型参数,以便于通过将各个训练节点得到的模型参数合并生成用于文本识别过程的识别模型。
通过本申请提供的实施例,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性,进而实现利用上述训练过程训练出的识别模型进行文本识别,以达到提高文本识别的准确性的目的。
作为一种可选的方案,其特征在于,生成单元包括:
1)第一分发模块,用于按照样本短语的前驱词,将样本文本数据中的样本短语分发至多个训练节点,样本短语的前驱词为样本短语中当前词的前一个单词,当前词为样本短语中的最后一个单词,单词为具有独立含义的词组;
2)获取模块,用于获取多个训练节点分别对接收到的样本短语训练后得到的模型参数;
3)合并模块,用于合并模型参数以生成识别模型。
需要说明的是,在本实施例中,第一分发模块包括:
(1)第一分发子模块,用于将样本文本数据中阶次为一阶的样本短语分别分发至多个训练节点;
(2)第二分发子模块,用于将样本文本数据中阶次为大于等于二阶的样本短语按照样本短语的前驱词分别分发至多个训练节点;
其中,阶次用于指示一个样本短语中所包含的单词数量。
也就是说,将阶次为一阶的样本短语均分发至每个训练节点,其中,由于一阶的样本短语计算量不大,因而并不影响各个训练节点的训练效率。此外,将阶次为大于等于二阶的样本短语按照前驱词分别分发至不同的训练节点,每个训练节点将分别接收到以一个前驱词为参考分发的样本短语,其中,这些样本短语中包括不同阶次的样本短语。这里,以样本短语的前驱词为分发依据,将保证在每个训练节点中包含所有训练需要的所有统计信息。
可选地,在本实施例中,在将样本文本数据中的样本短语分发至多个训练节点时,还将把与样本短语对应的文法系数分发到对应的训练节点中。其中,本实施例中的文法系数(也称作折扣率,下文不再赘述)用于获取识别系数中与样本短语对应的文法概率(也称作平滑概率)。需要说明的是,这里文法系数可以与样本短语同时同步发送给对应的训练节点,也可以与样本短语分开异步发送,根据不同的场景需求可以采用不同的分发方式,本实施例中对此不做任何限定。此外,这里的文法系数可以但不限于为在分发前,在第二轮MapReduce操作后,根据各个样本短语的词频得到。
可选地,在本实施例中,各个训练节点在接收到分发的样本短语和对应的文本系数后,将分别开始执行对应的数据训练(即数据平滑处理),这里可以但不限于借助前缀树Trie树执行数据训练过程。以将上述文本识别方法应用于Hadoop系统为例,采用Trie树为基础的数据结构,借助Trie树的数据结构获取训练节点中各个样本短语在该训练节点出现的样本概率。
例如,按照单词顺序创建与样本短语中的单词具有映射关系的Trie树,如图3所示的Trie树,每个子节点用于记录样本短语中的一个单词及对应的词频,子节点所记录的单词wi为样本短语中位于子节点相邻根节点所记录的单词wi-1的下一个单词。例如,按照阴影所指示,查找一个样本短语中的各个单词。
进一步,通过Trie树中各个树节点记录的单词的词频获取样本短语的样本概率,如以样本短语w1w2...wi为例,可以将当前词为wi的样本短语在Trie树中记录的词频,与当前词为wi-1在Trie树中记录的词频的比值,作为样本短语w1w2...wi的样本概率。其中,当前词为wi-1的词频可以但不限于通过对wi-1的下位子节点求和得到。需要说明的是,由于样本文本数据已被分发至各个训练节点,因而,各个训练节点根据与样本短语映射创建的Trie树的子节点不一定是完整的,因而,子节点的根节点所记录的词频无法保证准确性。也就是说,通过利用Trie树各个子节点(如i阶)所记录的词频的和,可以确定相邻根节点(如i-1阶)的词频,从而保证所获取的样本概率的准确性。
可选地,在本实施例中,合并模块包括:合并子模块,用于按照样本短语的阶次将多个训练节点训练得到的模型参数合并,以生成识别模型。
通过本申请提供的实施例,通过根据样本短语的前驱词将样本短语分发至不同的训练节点进行训练,不仅可以提高训练的效率,还可以保证在每个训练节点中包含所有训练需要的所有统计信息,保证数据的独立性和完整性。
作为一种可选的方案,还包括:
1)处理模块,用于在将样本文本数据中的样本短语分发至多个训练节点时,按照样本文本数据中样本短语的阶次,重复执行以下步骤,直至遍历样本文本数据中的所有阶次,其中,阶次用于指示一个样本短语中所包含的单词数量,每个阶次中包括一个或多个样本短语:获取当前样本短语在所在当前阶次中的词频;根据词频获取与当前样本短语对应的文法系数,其中,文法系数用于获取当前样本短语的文法概率;判断当前样本短语是否为当前阶次中的最后一个样本短语;若当前样本短语不是当前阶次中的最后一个样本短语,则获取当前阶次中位于当前样本短语之后的下一个样本短语作为当前样本短语;若当前样本短语是当前阶次中的最后一个样本短语,则获取位于当前阶次之后的下一个阶次作为当前阶次,获取位于当前阶次之后的下一个阶次中的一个样本短语作为当前样本短语;
2)第二分发模块,用于将文法系数根据对应的当前样本短语分发至多个训练节点中对应的训练节点。
具体结合以下示例进行说明,在获取到样本文本数据N-Gram数据后,对其按照阶次进行第二轮MapReduce操作,获取其中各个样本短语的词频r及对应的文法系数dr。
例如,作为一种可选的实施方式,上述文法系数dr的计算公式可以如下:
其中,dr用于表示文法系数,r用于表示样本短语在所在阶次中的词频,ni用于表示在一个阶次中词频为i次的样本短语的统计数量,k用于表示预定系数,
也就是说,遍历N-Gram数据中的样本短语执行MapReduce操作,通过上述方式获取样本短语的词频及对应的文法系数。
通过本申请提供的实施例,在将样本文本数据中的样本短语分发至多个训练节点时,获取并分发对应的文法系数,从而节省训练时间,达到提高训练效率及识别模型生成效率的目的。
作为一种可选的方案,获取模块包括:
1)映射子模块,用于分别将多个训练节点各自所接收到的样本数据映射到与训练节点相对应的前缀树中,前缀树用于指示对应的训练节点所接收到的样本短语中单词的排列关系;
其中,每个训练节点根据对应的前缀树执行以下步骤:
S1,根据前缀树获取样本短语的样本概率,其中,样本概率用于指示样本短语在训练节点中出现的概率;
S2,根据样本短语的样本概率和/或与样本短语对应的文法系数得到样本短语的文法概率;
S3,根据样本短语的文法概率获取样本短语的回退系数,以得到训练节点的模型参数。
可选地,在本实施例中,根据样本短语的样本概率和/或与样本短语对应的文法系数得到样本短语的文法概率包括:
S1,按照训练节点中样本短语的阶次,重复执行以下步骤,直至遍历训练节点中的所有阶次:
S12,对阶次为n阶的样本短语按照以下公式获取文法概率:
其中,P(wn|w1...wn-1)用于表示在阶次为n阶的样本短语中,在前n-1个单词为w1...wn-1的情况下,当前词为wn的样本短语的文法概率,k为预定参数,r用于表示前n-1个单词为w1...wn-1,当前词为wn的样本短语在所在阶次中的词频,dr用于表示与前n-1个单词为w1...wn-1,当前词为wn的样本短语对应的文法系数,用于表示前n-1个单词为w1...wn-1,当前词为wn的样本短语的样本概率。
可选地,在本实施例中,根据样本短语的文法概率获取样本短语的回退系数包括:
其中,用于表示前n-1个单词为w1...wn-1的样本短语的回退系数,用于表示在阶次为n阶的样本短语中,在前n-1个单词为w1...wn-1,当前词为wi的样本短语的词频大于0的情况下,对前n-1个单词为w1...wn-1,当前词为wi的样本短语的文法概率求和,用于表示在阶次为n阶的样本短语中,在前n-2个单词为w2...wn-1,当前词为wi的样本短语的词频大于0的情况下,对前n-2个单词为w2...wn-1,当前词为wi的样本短语的文法概率求和。
通过本申请提供的实施例,在训练识别模型时,通过将训练过程分布到各个训练节点上分别执行,而不再将数据量集中到有有限的设备中,从而避免现有的模型训练过程中受到运算及内存资源的限制,所出现的内存溢出、训练中断的问题,达到降低内存负载,提高训练效率及准确性。
作为一种可选的方案,还包括:
1)第三获取单元,用于在获取识别模型输出的与文本数据对应的识别后的目标文本数据之前,根据识别模型获取与待识别的文本数据中的各个文本短语分别对应的识别概率,其中,文本数据中包括多个文本短语;
2)确定单元,用于根据识别概率确定识别模型输出的目标文本数据。
可选地,在本实施例中,第三获取单元通过以下公式获取识别概率:
其中,P(wm|w1...wm-1)用于表示对于文本数据中阶次为m阶的文本短语,在前m-1个单词为w1...wm-1的情况下,当前词为wm的文本短语的识别概率,当前词为文本短语中的最后一个单词,单词为具有独立含义的词组,阶次用于指示一个文本短语中所包含的单词数量,r用于表示前m-1个单词为w1...wm-1,当前词为wm的文本短语在所在阶次中的词频,用于表示前m-1个单词为w1...wm-1,当前词为wm的文本短语的文本概率,用于表示前m-1个单词为w1...wm-1的文本短语的回退系数,用于表示前m-2个单词为w2...wm-1,当前词为wm的文本短语的文本概率。
可选地,在本实施例中,确定单元包括:
1)确定模块,用于在识别概率大于预定阈值时,将识别概率所指示的识别出的短语作为目标文本数据中的目标短语。
可选地,在本实施例中,上述预定阈值可以但不限于根据不同场景设置为不同取值,本实施例中对此不做任何限定。
通过本申请提供的实施例,根据上述训练过程获取的识别模型获取与待识别的文本数据中各个文本短语对应的识别概率,进而实现在识别概率大于预定阈值的情况下,将识别概率所指示的识别出的短语作为在目标文本数据中与上述文本短语对应的目标短语。
实施例3
本发明实施例的应用环境可以但不限于参照实施例1中的应用环境,本实施例中对此不再赘述。本发明实施例提供了用于实施上述文本识别方法的一种可选的具体应用示例。
作为一种可选的实施例,上述文本识别方法可以但不限于应用于语音识别过程中。在训练流程中,会多次执行MapReduce操作,包括生成N-Gram数据、估计平滑系数(即文法系数,又称折扣率)、数据分发和模型参数估计(即文法概率和回退系数)、模型参数合并。其训练步骤具体结合图5所示进行说明:
S1,整理原始文本数据,分词并生成N-Gram数据(即样本文本数据),并得到样本文本数据中样本短语的词频;
S2,按照阶次计算各个阶次中的样本短语的文法系数(即折扣率),并抽取出一阶的样本短语;
S3,对N-Gram数据进行分块分发,同时传入的上述文法系数(即折扣率)和一阶的样本短语,各分块在各个训练节点分别进行训练,以做出模型参数估计,即样本短语的识别系数:文法概率和回退系数;
S4,按阶次分别统计各个样本短语的识别系数得到该训练节点的模型参数;
S5,根据阶次合并模型参数,得到最终ARPA结构的识别模型。
需要说明的是,本实施例中采用的是Katz平滑算法,对于一阶的样本短语,由于其信息规模比较小,同时概率计算需要用到所有的一阶信息,因此可以不必分块,单独训练即可。
实施例4
根据本发明实施例,还提供了一种用于实施上述文本识别方法的文本识别服务器,如图6所示,该服务器包括:
1)通讯接口602,设置为获取待识别的文本数据;
2)处理器604,与通讯接口602连接,设置为将文本数据输入识别模型,其中,识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到模型参数;
通讯接口602,还设置为获取识别模型输出的与文本数据对应的识别后的目标文本数据;
3)存储器606,与通讯接口602及处理器604连接,设置为存储识别模型及文本数据。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
实施例5
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以位于网络中的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待识别的文本数据;
S2,将文本数据输入识别模型,其中,识别模型根据多个训练节点分别训练得到的模型参数生成,每一个训练节点用于根据获取到的样本短语的识别系数得到模型参数;
S3,获取识别模型输出的与文本数据对应的识别后的目标文本数据。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S1,获取样本文本数据,其中,样本文本数据中包括多个样本短语;
S2,利用样本短语生成识别模型,其中,用于生成识别模型的模型参数根据以下识别系数得到:样本短语的文法概率及回退系数。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (22)
1.一种文本识别方法,其特征在于,包括:
获取待识别的文本数据;
将所述文本数据输入识别模型,其中,所述识别模型根据多个训练节点分别训练得到的模型参数生成,每一个所述训练节点用于根据获取到的样本短语的识别系数得到所述模型参数;
获取所述识别模型输出的与所述文本数据对应的识别后的目标文本数据。
2.根据权利要求1所述的方法,其特征在于,在获取待识别的文本数据之前,还包括:
获取样本文本数据,其中,所述样本文本数据中包括多个样本短语;
利用所述样本短语生成所述识别模型,其中,用于生成所述识别模型的所述模型参数根据以下识别系数得到:所述样本短语的文法概率及回退系数。
3.根据权利要求2所述的方法,其特征在于,所述利用所述样本短语生成所述识别模型包括:
按照所述样本短语的前驱词,将所述样本文本数据中的所述样本短语分发至所述多个训练节点,其中,所述样本短语的所述前驱词为所述样本短语中当前词的前一个单词,所述当前词为所述样本短语中的最后一个单词,所述单词为具有独立含义的词组;
获取所述多个训练节点分别对接收到的所述样本短语训练后得到的所述模型参数;
合并所述模型参数以生成所述识别模型。
4.根据权利要求3所述的方法,其特征在于,所述将所述样本文本数据中的所述样本短语分发至所述多个训练节点包括:
将所述样本文本数据中阶次为一阶的所述样本短语分别分发至所述多个训练节点;
将所述样本文本数据中阶次为大于等于二阶的所述样本短语按照所述样本短语的所述前驱词分别分发至所述多个训练节点;
其中,所述阶次用于指示一个所述样本短语中所包含的单词数量。
5.根据权利要求3所述的方法,其特征在于,在所述将所述样本文本数据中的所述样本短语分发至所述多个训练节点时,还包括:
按照所述样本文本数据中所述样本短语的阶次,重复执行以下步骤,直至遍历所述样本文本数据中的所有阶次,其中,所述阶次用于指示一个所述样本短语中所包含的单词数量,每个所述阶次中包括一个或多个样本短语:
获取当前样本短语在所在当前阶次中的词频;根据所述词频获取与所述当前样本短语对应的文法系数,其中,所述文法系数用于获取所述当前样本短语的所述文法概率;
判断所述当前样本短语是否为所述当前阶次中的最后一个样本短语;
若所述当前样本短语不是所述当前阶次中的所述最后一个样本短语,则获取所述当前阶次中位于所述当前样本短语之后的下一个样本短语作为所述当前样本短语;
若所述当前样本短语是所述当前阶次中的所述最后一个样本短语,则获取位于所述当前阶次之后的下一个阶次作为当前阶次,获取所述位于所述当前阶次之后的下一个阶次中的一个样本短语作为所述当前样本短语;
将所述文法系数根据对应的所述当前样本短语分发至所述多个训练节点中对应的训练节点。
6.根据权利要求5所述的方法,其特征在于,所述获取所述多个训练节点分别对接收到的所述样本短语训练后得到的所述模型参数包括:
分别将所述多个训练节点各自所接收到的所述样本数据映射到与训练节点相对应的前缀树中,所述前缀树用于指示对应的所述训练节点所接收到的所述样本短语中单词的排列关系;
其中,每个所述训练节点根据对应的所述前缀树执行以下步骤:
根据所述前缀树获取所述样本短语的样本概率,其中,所述样本概率用于指示所述样本短语在所述训练节点中出现的概率;
根据所述样本短语的所述样本概率和/或与所述样本短语对应的所述文法系数得到所述样本短语的所述文法概率;
根据所述样本短语的所述文法概率获取所述样本短语的所述回退系数,以得到所述训练节点的所述模型参数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述样本短语的所述样本概率和/或与所述样本短语对应的所述文法系数得到所述样本短语的所述文法概率包括:
按照所述训练节点中所述样本短语的阶次,重复执行以下步骤,直至遍历所述训练节点中的所有阶次:
对阶次为n阶的所述样本短语按照以下公式获取所述文法概率:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mfrac>
<mrow>
<mi>C</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>C</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mi>r</mi>
<mo>></mo>
<mi>k</mi>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>d</mi>
<mi>r</mi>
</msub>
<mfrac>
<mrow>
<mi>C</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mi>n</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>C</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>,</mo>
<mn>0</mn>
<mo><</mo>
<mi>r</mi>
<mo>&le;</mo>
<mi>k</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,所述P(wn|w1...wn-1)用于表示在所述阶次为n阶的样本短语中,在前n-1个单词为w1...wn-1的情况下,所述当前词为wn的样本短语的文法概率,所述k为预定参数,所述r用于表示所述前n-1个单词为w1...wn-1,所述当前词为wn的样本短语在所在阶次中的词频,所述dr用于表示与所述前n-1个单词为w1...wn-1,所述当前词为wn的样本短语对应的文法系数,所述用于表示所述前n-1个单词为w1...wn-1,所述当前词为wn的样本短语的样本概率。
8.根据权利要求6所述的方法,其特征在于,所述根据所述样本短语的所述文法概率获取所述样本短语的所述回退系数包括:
<mrow>
<msub>
<mi>&alpha;</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<mn>1</mn>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>:</mo>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>></mo>
<mn>0</mn>
</mrow>
</munder>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mn>1</mn>
<mo>-</mo>
<munder>
<mo>&Sigma;</mo>
<mrow>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>:</mo>
<mi>c</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>></mo>
<mn>0</mn>
</mrow>
</munder>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mn>2</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>n</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,所述用于表示前n-1个单词为w1...wn-1的样本短语的回退系数,所述用于表示在所述阶次为n阶的样本短语中,在前n-1个单词为w1...wn-1,所述当前词为wi的样本短语的词频大于0的情况下,对所述前n-1个单词为w1...wn-1,所述当前词为wi的样本短语的文法概率求和,所述用于表示在所述阶次为n阶的样本短语中,在前n-2个单词为w2...wn-1,所述当前词为wi的样本短语的词频大于0的情况下,对所述前n-2个单词为w2...wn-1,所述当前词为wi的样本短语的文法概率求和。
9.根据权利要求3所述的方法,其特征在于,所述合并所述模型参数以生成所述识别模型包括:
按照所述样本短语的阶次将所述多个训练节点训练得到的所述模型参数合并,以生成所述识别模型。
10.根据权利要求1所述的方法,其特征在于,在所述获取所述识别模型输出的与所述文本数据对应的识别后的目标文本数据之前,还包括:
根据所述识别模型获取与待识别的所述文本数据中的各个文本短语分别对应的识别概率,其中,所述文本数据中包括多个所述文本短语;
根据所述识别概率确定所述识别模型输出的所述目标文本数据。
11.根据权利要求10所述的方法,其特征在于,所述根据所述识别模型获取与待识别的所述文本数据中的各个文本短语分别对应的识别概率包括:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
</mrow>
</msub>
<mo>,</mo>
<mi>r</mi>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&alpha;</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</msub>
<msub>
<mi>P</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>2</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
</mrow>
</msub>
<mo>,</mo>
<mi>r</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,所述P(wm|w1...wm-1)用于表示对于所述文本数据中阶次为m阶的文本短语,在前m-1个单词为w1...wm-1的情况下,当前词为wm的文本短语的识别概率,所述当前词为所述文本短语中的最后一个单词,所述单词为具有独立含义的词组,所述阶次用于指示一个所述文本短语中所包含的单词数量,所述r用于表示所述前m-1个单词为w1...wm-1,所述当前词为wm的文本短语在所在阶次中的词频,所述用于表示所述前m-1个单词为w1...wm-1,所述当前词为wm的文本短语的文本概率,所述用于表示前m-1个单词为w1...wm-1的文本短语的回退系数,所述用于表示所述前m-2个单词为w2...wm-1,所述当前词为wm的文本短语的文本概率。
12.根据权利要求10所述的方法,其特征在于,所述根据所述识别概率确定所述识别模型输出的所述目标文本数据包括:
在所述识别概率大于预定阈值时,将所述识别概率所指示的识别出的短语作为所述目标文本数据中的目标短语。
13.一种文本识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的文本数据;
输入识别单元,用于将所述文本数据输入识别模型,其中,所述识别模型根据多个训练节点分别训练得到的模型参数生成,每一个所述训练节点用于根据获取到的样本短语的识别系数得到所述模型参数;
第二获取单元,用于获取所述识别模型输出的与所述文本数据对应的识别后的目标文本数据。
14.根据权利要求13所述的装置,其特征在于,还包括:
第三获取单元,在获取待识别的文本数据之前,获取样本文本数据,其中,所述样本文本数据中包括多个样本短语;
生成单元,用于利用所述样本短语生成所述识别模型,其中,用于生成所述识别模型的所述模型参数根据以下识别系数得到:所述样本短语的文法概率及回退系数。
15.根据权利要求14所述的装置,其特征在于,所述生成单元包括:
第一分发模块,用于按照所述样本短语的前驱词,将所述样本文本数据中的所述样本短语分发至所述多个训练节点,所述样本短语的所述前驱词为所述样本短语中当前词的前一个单词,所述当前词为所述样本短语中的最后一个单词,所述单词为具有独立含义的词组;
获取模块,用于获取所述多个训练节点分别对接收到的所述样本短语训练后得到的所述模型参数;
合并模块,用于合并所述模型参数以生成所述识别模型。
16.根据权利要求15所述的装置,其特征在于,所述第一分发模块包括:
第一分发子模块,用于将所述样本文本数据中阶次为一阶的所述样本短语分别分发至所述多个训练节点;
第二分发子模块,用于将所述样本文本数据中阶次为大于等于二阶的所述样本短语按照所述样本短语的所述前驱词分别分发至所述多个训练节点;
其中,所述阶次用于指示一个所述样本短语中所包含的单词数量。
17.根据权利要求15所述的装置,其特征在于,还包括:
处理模块,用于在所述将所述样本文本数据中的所述样本短语分发至所述多个训练节点时,按照所述样本文本数据中所述样本短语的阶次,重复执行以下步骤,直至遍历所述样本文本数据中的所有阶次,其中,所述阶次用于指示一个所述样本短语中所包含的单词数量,每个所述阶次中包括一个或多个样本短语:获取当前样本短语在所在当前阶次中的词频;根据所述词频获取与所述当前样本短语对应的文法系数,其中,所述文法系数用于获取所述当前样本短语的所述文法概率;判断所述当前样本短语是否为所述当前阶次中的最后一个样本短语;若所述当前样本短语不是所述当前阶次中的所述最后一个样本短语,则获取所述当前阶次中位于所述当前样本短语之后的下一个样本短语作为所述当前样本短语;若所述当前样本短语是所述当前阶次中的所述最后一个样本短语,则获取位于所述当前阶次之后的下一个阶次作为当前阶次,获取所述位于所述当前阶次之后的下一个阶次中的一个样本短语作为所述当前样本短语;
第二分发模块,用于将所述文法系数根据对应的所述当前样本短语分发至所述多个训练节点中对应的训练节点。
18.根据权利要求17所述的装置,其特征在于,所述获取模块包括:
映射子模块,用于分别将所述多个训练节点各自所接收到的所述样本数据映射到与训练节点相对应的前缀树中,所述前缀树用于指示对应的所述训练节点所接收到的所述样本短语中单词的排列关系;
其中,每个所述训练节点根据对应的所述前缀树执行以下步骤:
根据所述前缀树获取所述样本短语的样本概率,其中,所述样本概率用于指示所述样本短语在所述训练节点中出现的概率;
根据所述样本短语的所述样本概率和/或与所述样本短语对应的所述文法系数得到所述样本短语的所述文法概率;
根据所述样本短语的所述文法概率获取所述样本短语的所述回退系数,以得到所述训练节点的所述模型参数。
19.根据权利要求15所述的装置,其特征在于,所述合并模块包括:
合并子模块,用于按照所述样本短语的阶次将所述多个训练节点训练得到的所述模型参数合并,以生成所述识别模型。
20.根据权利要求13所述的装置,其特征在于,还包括:
第三获取单元,用于在所述获取所述识别模型输出的与所述文本数据对应的识别后的目标文本数据之前,根据所述识别模型获取与待识别的所述文本数据中的各个文本短语分别对应的识别概率,其中,所述文本数据中包括多个所述文本短语;
确定单元,用于根据所述识别概率确定所述识别模型输出的所述目标文本数据。
21.根据权利要求20所述的装置,其特征在于,所述第三获取单元通过以下公式获取所述识别概率:
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
<mo>|</mo>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<msub>
<mi>P</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mn>...</mn>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
</mrow>
</msub>
<mo>,</mo>
<mi>r</mi>
<mo>></mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<msub>
<mi>&alpha;</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>1</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mrow>
<mi>m</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
</msub>
</mrow>
</msub>
<msub>
<mi>P</mi>
<mrow>
<msub>
<mi>w</mi>
<mn>2</mn>
</msub>
<mo>...</mo>
<msub>
<mi>w</mi>
<mi>m</mi>
</msub>
</mrow>
</msub>
<mo>,</mo>
<mi>r</mi>
<mo>=</mo>
<mn>0</mn>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,所述P(wm|w1...wm-1)用于表示对于所述文本数据中阶次为m阶的文本短语,在前m-1个单词为w1...wm-1的情况下,当前词为wm的文本短语的识别概率,所述当前词为所述文本短语中的最后一个单词,所述单词为具有独立含义的词组,所述阶次用于指示一个所述文本短语中所包含的单词数量,所述r用于表示所述前m-1个单词为w1...wm-1,所述当前词为wm的文本短语在所在阶次中的词频,所述用于表示所述前m-1个单词为w1...wm-1,所述当前词为wm的文本短语的文本概率,所述用于表示前m-1个单词为w1...wm-1的文本短语的回退系数,所述用于表示所述前m-2个单词为w2...wm-1,所述当前词为wm的文本短语的文本概率。
22.根据权利要求20所述的装置,其特征在于,所述确定单元包括:
确定模块,用于在所述识别概率大于预定阈值时,将所述识别概率所指示的识别出的短语作为所述目标文本数据中的目标短语。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610864799.8A CN107885716B (zh) | 2016-09-29 | 2016-09-29 | 文本识别方法及装置 |
PCT/CN2017/102759 WO2018059302A1 (zh) | 2016-09-29 | 2017-09-21 | 文本识别方法、装置及存储介质 |
US16/206,537 US11068655B2 (en) | 2016-09-29 | 2018-11-30 | Text recognition based on training of models at a plurality of training nodes |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610864799.8A CN107885716B (zh) | 2016-09-29 | 2016-09-29 | 文本识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107885716A true CN107885716A (zh) | 2018-04-06 |
CN107885716B CN107885716B (zh) | 2020-02-11 |
Family
ID=61763129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610864799.8A Active CN107885716B (zh) | 2016-09-29 | 2016-09-29 | 文本识别方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11068655B2 (zh) |
CN (1) | CN107885716B (zh) |
WO (1) | WO2018059302A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334908A (zh) * | 2018-06-26 | 2021-02-05 | 伟摩有限责任公司 | 用于自主车辆的短语识别模型 |
CN116451678A (zh) * | 2023-06-15 | 2023-07-18 | 阿里巴巴(中国)有限公司 | 数据关系识别及数据表整合方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650812B2 (en) * | 2018-08-13 | 2020-05-12 | Bank Of America Corporation | Deterministic multi-length sliding window protocol for contiguous string entity |
CN113626587B (zh) * | 2020-05-08 | 2024-03-29 | 武汉金山办公软件有限公司 | 一种文本类别识别方法、装置、电子设备及介质 |
CN113486676B (zh) * | 2021-04-08 | 2023-08-11 | 中国地质大学(武汉) | 一种面向地质文本的地质实体语义关系提取方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617239A (zh) * | 2013-11-26 | 2014-03-05 | 百度在线网络技术(北京)有限公司 | 命名实体的识别方法、装置及分类模型的创建方法、装置 |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
CN105894087A (zh) * | 2015-01-26 | 2016-08-24 | 华为技术有限公司 | 用于神经网络中训练参数集的系统和方法 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7624020B2 (en) * | 2005-09-09 | 2009-11-24 | Language Weaver, Inc. | Adapter for allowing both online and offline training of a text to text system |
US8788258B1 (en) * | 2007-03-15 | 2014-07-22 | At&T Intellectual Property Ii, L.P. | Machine translation using global lexical selection and sentence reconstruction |
US8332207B2 (en) * | 2007-03-26 | 2012-12-11 | Google Inc. | Large language models in machine translation |
US8615388B2 (en) * | 2008-03-28 | 2013-12-24 | Microsoft Corporation | Intra-language statistical machine translation |
US8046222B2 (en) * | 2008-04-16 | 2011-10-25 | Google Inc. | Segmenting words using scaled probabilities |
US8688445B2 (en) * | 2008-12-10 | 2014-04-01 | Adobe Systems Incorporated | Multi-core processing for parallel speech-to-text processing |
US8150160B2 (en) * | 2009-03-26 | 2012-04-03 | King Fahd University Of Petroleum & Minerals | Automatic Arabic text image optical character recognition method |
US8644611B2 (en) * | 2009-06-03 | 2014-02-04 | Raytheon Bbn Technologies Corp. | Segmental rescoring in text recognition |
US8725509B1 (en) * | 2009-06-17 | 2014-05-13 | Google Inc. | Back-off language model compression |
US8655647B2 (en) * | 2010-03-11 | 2014-02-18 | Microsoft Corporation | N-gram selection for practical-sized language models |
US9336771B2 (en) * | 2012-11-01 | 2016-05-10 | Google Inc. | Speech recognition using non-parametric models |
CN104157285B (zh) * | 2013-05-14 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
US9436681B1 (en) * | 2013-07-16 | 2016-09-06 | Amazon Technologies, Inc. | Natural language translation techniques |
CN103544309B (zh) * | 2013-11-04 | 2017-03-15 | 北京中搜网络技术股份有限公司 | 一种中文垂直搜索的检索串拆分方法 |
US9412365B2 (en) * | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9940321B2 (en) * | 2015-03-15 | 2018-04-10 | Graham MOREHEAD | System for machine translation |
CN106156010B (zh) * | 2015-04-20 | 2019-10-11 | 阿里巴巴集团控股有限公司 | 翻译训练方法、装置、系统、以及在线翻译方法及装置 |
US10140983B2 (en) * | 2015-08-28 | 2018-11-27 | International Business Machines Corporation | Building of n-gram language model for automatic speech recognition (ASR) |
US10095770B2 (en) * | 2015-09-22 | 2018-10-09 | Ebay Inc. | Miscategorized outlier detection using unsupervised SLM-GBM approach and structured data |
CN105808523A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种识别文档的方法及装置 |
US10203992B2 (en) * | 2016-05-12 | 2019-02-12 | Futurewei Technologies, Inc. | Worker node rebuild for parallel processing system |
US20180011839A1 (en) * | 2016-07-07 | 2018-01-11 | Xerox Corporation | Symbol prediction with gapped sequence models |
US10311046B2 (en) * | 2016-09-12 | 2019-06-04 | Conduent Business Services, Llc | System and method for pruning a set of symbol-based sequences by relaxing an independence assumption of the sequences |
-
2016
- 2016-09-29 CN CN201610864799.8A patent/CN107885716B/zh active Active
-
2017
- 2017-09-21 WO PCT/CN2017/102759 patent/WO2018059302A1/zh active Application Filing
-
2018
- 2018-11-30 US US16/206,537 patent/US11068655B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617239A (zh) * | 2013-11-26 | 2014-03-05 | 百度在线网络技术(北京)有限公司 | 命名实体的识别方法、装置及分类模型的创建方法、装置 |
CN105894087A (zh) * | 2015-01-26 | 2016-08-24 | 华为技术有限公司 | 用于神经网络中训练参数集的系统和方法 |
CN104615589A (zh) * | 2015-02-15 | 2015-05-13 | 百度在线网络技术(北京)有限公司 | 训练命名实体识别模型的方法、命名实体识别方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334908A (zh) * | 2018-06-26 | 2021-02-05 | 伟摩有限责任公司 | 用于自主车辆的短语识别模型 |
CN112334908B (zh) * | 2018-06-26 | 2024-05-10 | 伟摩有限责任公司 | 用于自主车辆的短语识别模型 |
CN116451678A (zh) * | 2023-06-15 | 2023-07-18 | 阿里巴巴(中国)有限公司 | 数据关系识别及数据表整合方法 |
CN116451678B (zh) * | 2023-06-15 | 2023-11-14 | 阿里巴巴(中国)有限公司 | 数据关系识别及数据表整合方法 |
Also Published As
Publication number | Publication date |
---|---|
US20190095423A1 (en) | 2019-03-28 |
CN107885716B (zh) | 2020-02-11 |
WO2018059302A1 (zh) | 2018-04-05 |
US11068655B2 (en) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI769754B (zh) | 基於隱私保護確定目標業務模型的方法及裝置 | |
CN107885716B (zh) | 文本识别方法及装置 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
CN110377740B (zh) | 情感极性分析方法、装置、电子设备及存储介质 | |
CN108334601B (zh) | 基于标签主题模型的歌曲推荐方法、装置及存储介质 | |
CN106445915B (zh) | 一种新词发现方法及装置 | |
CN110896488B (zh) | 一种直播间的推荐方法以及相关设备 | |
CN110489574B (zh) | 一种多媒体信息推荐方法、装置和相关设备 | |
CN110210028A (zh) | 针对语音转译文本的领域特征词提取方法、装置、设备及介质 | |
CN110209809B (zh) | 文本聚类方法和装置、存储介质及电子装置 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN108304377B (zh) | 一种长尾词的提取方法及相关装置 | |
EP3352121A1 (en) | Content delivery method and device | |
CN113360711A (zh) | 视频理解任务的模型训练和执行方法、装置、设备及介质 | |
CN109885831B (zh) | 关键术语抽取方法、装置、设备及计算机可读存储介质 | |
CN113055751B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN110209780B (zh) | 一种问题模板生成方法、装置、服务器及存储介质 | |
CN108399266B (zh) | 数据抽取方法、装置、电子设备及计算机可读存储介质 | |
CN113869332A (zh) | 一种特征选择方法、装置、存储介质和设备 | |
CN112949290A (zh) | 文本纠错方法、装置及通信设备 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN111858862B (zh) | 一种答复推荐方法、答复推荐装置及电子设备 | |
CN105245380B (zh) | 一种消息的传播方式识别方法及装置 | |
CN114840642A (zh) | 事件抽取方法、装置、设备及存储介质 | |
CN109684442B (zh) | 一种文本检索方法、装置、设备及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231226 Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd. Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |
|
TR01 | Transfer of patent right |