CN102999533A - 一种火星文识别方法和系统 - Google Patents

一种火星文识别方法和系统 Download PDF

Info

Publication number
CN102999533A
CN102999533A CN2011102776189A CN201110277618A CN102999533A CN 102999533 A CN102999533 A CN 102999533A CN 2011102776189 A CN2011102776189 A CN 2011102776189A CN 201110277618 A CN201110277618 A CN 201110277618A CN 102999533 A CN102999533 A CN 102999533A
Authority
CN
China
Prior art keywords
mars
sentence
martian
probability
language model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102776189A
Other languages
English (en)
Inventor
肖镜辉
冯鹏超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2011102776189A priority Critical patent/CN102999533A/zh
Publication of CN102999533A publication Critical patent/CN102999533A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出一种火星文识别方法和系统,其中方法包括:采用已知的火星文文本在原始语料中进行搜索,得到火星文训练文本集合;采用所述火星文训练文本集合建立火星文语言模型;利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。本发明能够将网络原始文本中的火星文识别出来。

Description

一种火星文识别方法和系统
技术领域
本发明涉及统计语言建模技术领域,特别涉及一种火星文识别方法和系统。
背景技术
随着计算机硬件性能的不断提升和软件智能性的不断提高,人们越来越期望计算机能够提供更加自然的人机交互方式,这表现在:(1)提供更加智能的汉语输入法;(2)提供语音输入功能;(3)提供连续手写功能。而这三种交互方式的实现,其底层都需要有语言建模技术的支持,语言模型的性能直接决定了人机交互软件的智能性和易用性。
统计语言建模技术是目前语言建模的主流技术,其中Ngram模型是最成功的统计语言模型。Ngram模型是根据词语之间的条件概率来计算候选汉语句子的概率,并挑选概率最大的候选汉语语句作为人机交互软件的输出。Ngram模型的训练流程包括:语料抓取、语料过滤、分词、Ngram模型训练等步骤,如图1所示。具体来说,首先,用语料抓取工具从互联网的网站上抓取网络原始文本,这些原始网络文本通常是html格式或者是xml格式的文本,而且包含很多英文字符、火星文字符、乱码等等,不能够直接用来训练语言模型;接下来,通过语料过滤程序,这些网络文本被过滤成为只包含汉字的纯文本格式;然后,这些纯文本语料经过分词处理,被用来训练Ngram语言模型;最后,语言模型作为输入法的核心输入引擎,随输入法产品发布给最终用户。
Ngram语言模型在计算句子的概率时,将其分解为若干个条件概率的乘积。由于词语的条件概率是通过对互联网海量中文文本进行分析、训练得到。因此,互联网上中文文本的质量,决定了Ngram模型中词语条件概率的准确程度,从而决定了Ngram统计语言模型的质量,进一步决定了人机交互软件的质量。而目前的互联网上的的文本鱼龙混杂,因此必须要对原始文本进行适当的过滤,才能得到适合Ngram模型训练的样本。在互联网文本中,经常出现火星文,火星文是近年来网络流行的一种文体,网民为了追求个性,使用同音字、近音字、形近字、拆字组合来代替正常的汉字,表达自己的思想。如:用拆字组合“走召弓虽”来表示“超强”,用“言兑言舌”表示“说话”,用“亻尔亻门者阝讠井氵又讠吾”来表示“你们讲汉语”;再比如用近音字“什庅湜焱暒妏”来表示“什么是火星文”,等等。由于这些文字与日常使用的文字有明显差别,被称为火星文,意指地球人看不懂的文字。在训练语言模型时,需要将训练语料中的火星文识别出来并过滤掉,以保证语言模型的质量;但是,目前并没有能够自动用于识别火星文的技术。
发明内容
本发明实施例提出一种火星文识别方法和系统,能够将网络原始文本中的火星文识别出来。
本发明的技术方案是这样实现的:
一种火星文识别方法,包括:
采用火星文文本在原始语料中进行搜索,得到火星文训练文本集合;
采用所述火星文训练文本集合建立火星文语言模型,所述火星文语言模型的内容如下:
Pmars(Wi|Wi-n+1...Wi-1)等于词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数与词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数的商;其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;
利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。
一种火星文识别系统,包括:训练文本集合搜索装置、火星文语言建模装置和火星文识别器;其中,
所述训练文本集合搜索装置,用于采用火星文文本在原始语料中进行搜索,得到火星文训练文本集合;
所述火星文语言建模装置,用于采用所述火星文训练文本集合建立火星文语言模型,所述火星文语言模型的内容如下:
Pmars(Wi|Wi-n+1...Wi-1)等于词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数与词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数的商;其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;
所述火星文识别器,用于利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。
可见,本发明提出的火星文识别方法和系统,能够自动将网络原始文本中的火星文识别出来。
附图说明
图1为现有的Ngram模型训练流程示意图;
图2为本发明提出的火星文识别方法流程图;
图3为本发明实施例的整体流程图;
图4为本发明提出的火星文识别系统结构示意图。
具体实施方式
本发明提出一种火星文识别方法,用于识别并过滤网络文本中的火星文,提高训练预料的质量,从而提高语言模型的质量,并最终提高输入法软件的智能性。
如图2为本发明提出的火星文识别方法流程图,包括:
步骤201:采用已知的火星文文本在原始语料中进行搜索,得到火星文训练文本集合;
步骤202:采用所述火星文训练文本集合建立火星文语言模型,所述火星文语言模型的内容如下:
Pmars(Wi|Wi-n+1...Wi-1)等于词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数与词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数的商;
即: P mars ( W i | W i - n + 1 . . . W i - 1 ) = C mars ( W i - n + 1 . . . W i - 1 W i ) C mars ( W i - n + 1 . . . W i - 1 )
其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;Cmars(Wi-n+1...Wi-1Wi)表示词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数,Cmars(Wi-n+1...Wi-1)表示词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数;
步骤203:利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。
以下举具体的实施例详细介绍:
本实施例基于统计原理,对火星文的识别包括火星文识别器的训练过程和应用过程。如图3为本发明实施例的整体流程图,如图3所示,首先,我们有一些已经看到的火星文的文本样例,将这些火星文文本放到原始语料中进行搜索,返回更多的火星文文本,这些火星文文本组成了供火星文识别器使用的火星文训练文本集合;接下来,火星文训练文本集合经过分词处理、语言建模等过程,建立火星文语言模型。火星文语言模型刻画了火星文文本的概率特征。它被进一步融合到火星文识别器中;最后,利用火星文识别器,对原始语料进行过滤,将原始语料分解为训练语料和火星文语料。其中,训练语料被用来训练输入法的核心引擎;火星文语料与之前搜集的火星文训练文本集合合并,组成新的火星文训练文本集合,重新对火星文语言模型进行训练,并进一步构造更加准确的火星文识别器。
以下对本实施例分阶段进行详细介绍。
第一阶段,搜索火星文语料:
首先,必须有大规模的网络文本,并在这些文本中发现一些火星文文本,如:“言兑言舌”等。将这些火星文作为关键字,对原始语料进行检索,会返回一些包含这些火星文文本的火星文语句,如:“言兑言舌走召弓虽”。在这些语句中,包含了除关键词以外的其它火星文文本,如“走召弓虽”等等。原始语料一般保存在LINUX环境下;在LINUX环境下,可以采用grep命令进行检索,即:在grep命令中包含关键字,则系统会返回包含该关键字的火星文语句。用这些新的火星文作为关键字,继续在原始语料中检索,这样,就可以逐渐积累起来一些火星文的集合,将这些检索到的火星文存放到一个文本中,构成火星文训练文本集合。这些集合经过分词处理后,可以用来进行火星文语言建模。
第二阶段,火星文语言建模
火星文语言建模是指采用火星文训练文本集合训练得到火星文语言模型,火星文语言模型是对火星文文本的概率描述。火星文语言建模可以采用Ngram模型技术,对条件概率的估值方法采用最大似然估计,公式如下:
P mars ( W i | W i - n + 1 . . . W i - 1 ) = C mars ( W i - n + 1 . . . W i - 1 W i ) C mars ( W i - n + 1 . . . W i - 1 )
其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;Cmars(Wi-n+1...Wi-1Wi)表示词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数,Cmars(Wi-n+1...Wi-1)表示词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数。
第三阶段,采用火星文识别器识别火星文:
火星文识别器是利用火星文语言模型对网络文本中的火星文进行识别、过滤的一种装置,其基本原理是:对一句网络文本,用火星文语言模型计算该文本是火星文的概率,当概率大于预先设定的阈值时,认为该文本是火星文,否则认为其不是火星文。
按照一般的理解,语句的火星文概率计算公式如下:
P mars ( S ) = P mars ( W 1 W 2 . . . W m ) = Π i = 1 m P mars ( W i | W i - n + 1 . . . W i - 1 )
其中,Pmars(S)为句子S是火星文的概率,句子S的具体内容是W1W2...Wm,W1至Wm分别是句子S中的第1至第m个词语。
但是,在实际使用过程中,如果直接采用上述计算公式会存在问题:语句的火星文概率与句子的长度m相关,长度越长,相乘的条件概率Pmars(Wi|Wi-n+1...Wi-1)的个数就越多,而Pmars(Wi|Wi-n+1...Wi-1)的值通常小于1.0,这样计算出来的Pmars(S)的值就越小。如果一句火星文的长度比较长,它计算出来的火星文概率就会比较小,很有可能会因小于预先设定的阈值,而没有被识别出来。为了解决上述问题,本实施例采用Pmars(S)的几何平均值对火星文概率进行修正,公式如下:
F mars ( S ) = P mars ( S ) m = P mars ( W 1 W 2 . . . W m ) m = Π i = 1 m P mars ( W i | W i - n + 1 . . . W i - 1 ) m , 其中,Fmars(S)为经修正后的句子S是火星文的概率,句子S的具体内容是W1W2...Wm,W1至Wm分别是句子S中的第1至第m个词语。
上述式子将候选语句的火星文概率对其句长m做概率的几何平均,消除了m对整体概率乘积的影响。当Fmars(S)的值大于预先设定的阈值时,则认为S语句是火星文。
上述方法是比较精确的方法,在实际使用过程中得到的识别准确率也是比较高的。然而,这种方法的算法复杂性比较高:在对于某个候选语句S进行计算时,需要计算每两个词语之间的bigram概率乘积。通常,我们面临的网络文本数量非常巨大,通常是T级别的(1T=1000G),程序的处理速度非常重要。为提高火星文识别器的识别速度,本实施例进一步提出了一种简化的方法,即不去计算整个语句是火星文的概率,而是在候选句子S中随机的选取K个短语(K<m,m表示句长),分别计算这K个短语是火星文短语的概率,并据此判断句子S是否是火星文,公式如下:
F mars ′ ( S ) = P mars ( S 1 ′ ) × . . . P mars ( S K ′ ) K
为进一步提高效率,在上述公式中,可以将每个短语定义为ngram短语
Figure BDA0000092268760000063
其中,
Figure BDA0000092268760000064
Figure BDA0000092268760000065
分别是短语S′k中的第1至第h个词语,k=1、2...或K,这样可以直接从火星文语言模型中查找得到S′k的概率Pmars(S′k)。
当F′mars(S)的值大于预先设定的阈值时,则认为S语句是火星文;否则,认为其为正常汉语文本。
当识别出句子S是火星文后,可以将其过滤。识别出来的火星文文本还可以补充到最初的火星文训练文本集合中,来提高火星文识别器的识别精度。
本发明还提出一种火星文识别系统,如图4为本发明提出的火星文识别系统结构示意图,该系统包括:训练文本集合搜索装置401、火星文语言建模装置402和火星文识别器403;其中,
所述训练文本集合搜索装置401,用于采用已知的火星文文本在原始语料中进行搜索,得到火星文训练文本集合;
所述火星文语言建模装置402,用于采用所述火星文训练文本集合建立火星文语言模型,所述火星文语言模型的内容如下:
P mars ( W i | W i - n + 1 . . . W i - 1 ) = C mars ( W i - n + 1 . . . W i - 1 W i ) C mars ( W i - n + 1 . . . W i - 1 )
其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;Cmars(Wi-n+1...Wi-1Wi)表示词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数,Cmars(Wi-n+1...Wi-1)表示词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数;
所述火星文识别器403,用于利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。
火星文识别器403计算句子S是火星文的概率的方式可以为:
采用如下式子以及所述火星文语言模型内容中的式子进行计算:
F mars ( S ) = P mars ( S ) m = P mars ( W 1 W 2 . . . W m ) m = Π i = 1 m P mars ( W i | W i - n + 1 . . . W i - 1 ) m , 其中,Fmars(S)为句子S是火星文的概率,句子S的具体内容是W1W2...Wm,W1至Wm分别是句子S中的第1至第m个词语。
或者,火星文识别器403计算句子S是火星文的概率的方式还可以为:
采用如下式子以及所述火星文语言模型内容中的式子进行计算:
Figure BDA0000092268760000081
其中,F′mars(S)为句子S是火星文的概率,S′1至S′K分别为从句子S中选取的第1至第K个短语,每个短语包括h个词语,其中,
S′k的具体内容是
Figure BDA0000092268760000082
Figure BDA0000092268760000083
Figure BDA0000092268760000084
分别是短语S′k中的第1至第h个词语,k=1、2...或K;
P mars ( S k ′ ) = P mars ( W 1 k W 2 k . . . W h k ) = Π i = 1 h P mars ( W i k | W i - n + 1 k . . . W i - 1 k ) , n为预先设定的整数。
火星文识别器403还可以用于,当识别出语句S是火星文时,过滤所述语句S,并将语句S加入所述火星文训练文本集合中。
可见,本发明提出的火星文识别方法和系统,能够提高输入法引擎所需的训练语料的质量,进而提高输入法引擎的准确率,提高输入法软件的质量。本发明还可以应用到语音识别、手写体识别、光学字符识别等相关领域。在本发明的基础上可以建立基于语言模型的信息检索系统,提高信息检索系统的性能(准确率、召回率)等。
综上所述,以上仅为对本发明精神的展示,而非用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种火星文识别方法,其特征在于,所述方法包括:
采用火星文文本在原始语料中进行搜索,得到火星文训练文本集合;
采用所述火星文训练文本集合建立火星文语言模型,所述火星文语言模型的内容如下:
Pmars(Wi|Wi-n+1...Wi-1)等于词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数与词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数的商;其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;
利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。
2.根据权利要求1所述的方法,其特征在于,所述利用火星文语言模型计算句子S是火星文的概率的方式为:
采用如下式子以及所述火星文语言模型内容中的式子进行计算:
F mars ( S ) = P mars ( S ) m = P mars ( W 1 W 2 . . . W m ) m = Π i = 1 m P mars ( W i | W i - n + 1 . . . W i - 1 ) m , 其中,Fmars(S)为句子S是火星文的概率,句子S的具体内容是W1W2...Wm,W1至Wm分别是句子S中的第1至第m个词语。
3.根据权利要求1所述的方法,其特征在于,所述利用火星文语言模型计算句子S是火星文的概率的方式为:
采用如下式子以及所述火星文语言模型内容中的式子进行计算:
其中,F′mars(S)为句子S是火星文的概率,S′1至S′K分别为从句子S中选取的第1至第K个短语,每个短语包括h个词语,其中,
S′k的具体内容是
Figure FDA0000092268750000013
Figure FDA0000092268750000014
Figure FDA0000092268750000015
分别是短语S′k中的第1至第h个词语,k=1、2...或K;
P mars ( S k ′ ) = P mars ( W 1 k W 2 k . . . W h k ) = Π i = 1 h P mars ( W i k | W i - n + 1 k . . . W i - 1 k ) , n为预先设定的整数。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法进一步包括:当识别出语句S是火星文时,过滤所述语句S,并将语句S加入所述火星文训练文本集合中,重新建立火星文语言模型。
5.一种火星文识别系统,其特征在于,所述系统包括:训练文本集合搜索装置、火星文语言建模装置和火星文识别器;其中,
所述训练文本集合搜索装置,用于采用火星文文本在原始语料中进行搜索,得到火星文训练文本集合;
所述火星文语言建模装置,用于采用所述火星文训练文本集合建立火星文语言模型,所述火星文语言模型的内容如下:
Pmars(Wi|Wi-n+1...Wi-1)等于词语序列Wi-n+1...Wi-1Wi在火星文训练文本集合中出现的次数与词语序列Wi-n+1...Wi-1在火星文训练文本集合中出现的次数的商;其中,n为预先设定的整数,Pmars(Wi|Wi-n+1...Wi-1)表示在词语序列Wi-n+1...Wi-1出现的条件下出现词语Wi的条件概率;
所述火星文识别器,用于利用所述火星文语言模型计算语句S是火星文的概率,当所述概率大于预先设定的阈值时,识别出该语句S是火星文。
6.根据权利要求5所述的系统,其特征在于,所述火星文识别器计算句子S是火星文的概率的方式为:
采用如下式子以及所述火星文语言模型内容中的式子进行计算:
F mars ( S ) = P mars ( S ) m = P mars ( W 1 W 2 . . . W m ) m = Π i = 1 m P mars ( W i | W i - n + 1 . . . W i - 1 ) m , 其中,Fmars(S)为句子S是火星文的概率,句子S的具体内容是W1W2...Wm,W1至Wm分别是句子S中的第1至第m个词语。
7.根据权利要求5所述的系统,其特征在于,所述火星文识别器计算句子S是火星文的概率的方式为:
采用如下式子以及所述火星文语言模型内容中的式子进行计算:
Figure FDA0000092268750000031
其中,F′mars(S)为句子S是火星文的概率,S′1至S′K分别为从句子S中选取的第1至第K个短语,每个短语包括h个词语,其中,
S′k的具体内容是
Figure FDA0000092268750000032
Figure FDA0000092268750000033
Figure FDA0000092268750000034
分别是短语S′k中的第1至第h个词语,k=1、2...或K;
P mars ( S k ′ ) = P mars ( W 1 k W 2 k . . . W h k ) = Π i = 1 h P mars ( W i k | W i - n + 1 k . . . W i - 1 k ) , n为预先设定的整数。
8.根据权利要求5至7任意一项所述的系统,其特征在于,所述火星文识别器还用于,当识别出语句S是火星文时,过滤所述语句S,并将语句S加入所述火星文训练文本集合中。
CN2011102776189A 2011-09-19 2011-09-19 一种火星文识别方法和系统 Pending CN102999533A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011102776189A CN102999533A (zh) 2011-09-19 2011-09-19 一种火星文识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011102776189A CN102999533A (zh) 2011-09-19 2011-09-19 一种火星文识别方法和系统

Publications (1)

Publication Number Publication Date
CN102999533A true CN102999533A (zh) 2013-03-27

Family

ID=47928106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102776189A Pending CN102999533A (zh) 2011-09-19 2011-09-19 一种火星文识别方法和系统

Country Status (1)

Country Link
CN (1) CN102999533A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095185A (zh) * 2015-07-21 2015-11-25 北京旷视科技有限公司 一种作者分析方法和作者分析系统
CN106649269A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种口语化句子的提取方法和装置
CN107122785A (zh) * 2016-02-25 2017-09-01 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
CN108573696A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
WO2020082890A1 (zh) * 2018-10-25 2020-04-30 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN111710328A (zh) * 2020-06-16 2020-09-25 北京爱医声科技有限公司 语音识别模型的训练样本选取方法、装置及介质
CN111951785A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123090A (zh) * 2006-08-11 2008-02-13 哈曼贝克自动系统股份有限公司 通过使用平方根折扣的统计语言的语音识别
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101123090A (zh) * 2006-08-11 2008-02-13 哈曼贝克自动系统股份有限公司 通过使用平方根折扣的统计语言的语音识别
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐志明 等: "一种语句级汉字输入技术的研究", 《高技术通讯》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095185A (zh) * 2015-07-21 2015-11-25 北京旷视科技有限公司 一种作者分析方法和作者分析系统
CN107122785A (zh) * 2016-02-25 2017-09-01 中兴通讯股份有限公司 文本识别模型建立方法和装置
CN106649269A (zh) * 2016-12-16 2017-05-10 广州视源电子科技股份有限公司 一种口语化句子的提取方法和装置
CN108573696A (zh) * 2017-03-10 2018-09-25 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN107423280A (zh) * 2017-04-19 2017-12-01 广州视源电子科技股份有限公司 一种语句判别方法与系统
WO2020082890A1 (zh) * 2018-10-25 2020-04-30 阿里巴巴集团控股有限公司 一种文本还原方法、装置及电子设备
CN111951785A (zh) * 2019-05-16 2020-11-17 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN111951785B (zh) * 2019-05-16 2024-03-15 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN111710328A (zh) * 2020-06-16 2020-09-25 北京爱医声科技有限公司 语音识别模型的训练样本选取方法、装置及介质
CN111710328B (zh) * 2020-06-16 2024-01-12 北京爱医声科技有限公司 语音识别模型的训练样本选取方法、装置及介质

Similar Documents

Publication Publication Date Title
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
CN102999533A (zh) 一种火星文识别方法和系统
CN109710929A (zh) 一种语音识别文本的校正方法、装置、计算机设备和存储介质
CN112395385B (zh) 基于人工智能的文本生成方法、装置、计算机设备及介质
CN106610951A (zh) 改进的基于语义分析的文本相似度求解算法
CN114580382A (zh) 文本纠错方法以及装置
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
CN1979638A (zh) 一种语音识别结果纠错方法
US20090265166A1 (en) Boundary estimation apparatus and method
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
Le Zhang et al. Enhancing low resource keyword spotting with automatically retrieved web documents
Béchet et al. Unsupervised knowledge acquisition for extracting named entities from speech
CN105551485A (zh) 语音文件检索方法及系统
Xafopoulos et al. Language identification in web documents using discrete HMMs
CN117474703B (zh) 基于社交网络的话题智能推荐方法
CN107797986B (zh) 一种基于lstm-cnn的混合语料分词方法
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN103744837A (zh) 基于关键词抽取的多文本对照方法
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
JP6126965B2 (ja) 発話生成装置、方法、及びプログラム
Yoo et al. Speech-act classification using a convolutional neural network based on pos tag and dependency-relation bigram embedding
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131022

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131022

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20130327

RJ01 Rejection of invention patent application after publication