CN104112447B - 提高统计语言模型准确度的方法及系统 - Google Patents

提高统计语言模型准确度的方法及系统 Download PDF

Info

Publication number
CN104112447B
CN104112447B CN201410366038.0A CN201410366038A CN104112447B CN 104112447 B CN104112447 B CN 104112447B CN 201410366038 A CN201410366038 A CN 201410366038A CN 104112447 B CN104112447 B CN 104112447B
Authority
CN
China
Prior art keywords
language model
msub
mrow
language
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410366038.0A
Other languages
English (en)
Other versions
CN104112447A (zh
Inventor
殷永光
鹿晓亮
梁修存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Medical Technology Co ltd
Original Assignee
Anhui Puji Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Puji Information Technology Co ltd filed Critical Anhui Puji Information Technology Co ltd
Priority to CN201410366038.0A priority Critical patent/CN104112447B/zh
Publication of CN104112447A publication Critical patent/CN104112447A/zh
Application granted granted Critical
Publication of CN104112447B publication Critical patent/CN104112447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种提高统计语言模型准确度的方法及系统,该方法包括:获取训练语料,并将所述训练语料分为两部分:训练集和保留集;在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。利用本发明,可以有效提高语言模型的整体识别率。

Description

提高统计语言模型准确度的方法及系统
技术领域
本发明涉及语音识别技术领域,具体涉及一种提高统计语言模型准确度的方法及系统。
背景技术
统计语言模型在自然语言处理技术中占有重要地位,在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。在语音识别中,计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子,然后显示或者打印给使用者。
例如:给定拼音串:ta shi yan jiu sheng wu de;
可能的汉字串有以下几种:踏实研究生物的、他实验救生物的、他使烟酒生物的、他是研究生物的等等。
如何让计算机选择一个最可能的汉字串,就要用到统计语言模型。
在统计语言模型中,判断一个句子是否合理,就要看它的可能性大小。假定S表示一个有意义的句子,由一连串特定顺序排列的词W1,W2,...,Wn组成,即S=W1,W2,...,Wn,n是句子的长度,则S在文本中出现的概率为:
P(S)=P(W1,W2,...,Wn)
由条件概率可知,S这个序列在文本中出现的概率等于每一个词出现的条件概率相乘,即:
P(S)=P(W1)×P(W2|W1)×P(W3|W1,W2)×...×P(Wn|W1,W2,...,Wn-1)
其中,P(W1)表示第一个词出现的概率,P(W2|W1)表示在已知第一个词的前提下,第二个词出现的概率,依此类推。
但是依然有一个问题,就是文本序列越靠后的词,依赖的词越多,到最后一个词时可能都无法估算。为此,业界给出了一个简单有效的方法,即假设任意一个词Wi出现的概率只与它前面的词Wi-1有关,则上式(2)简化为:
P(S)=P(W1)×P(W2|W1)×P(W3|W2)×...×P(Wn|Wn-1)
但是,对于统计语言模型,还有很多细节问题需要解决,其中一个问题就是零概率问题。而且,随着阶数的增大,估计为0的模型数越来越多,对语音识别正确率有较大影响。为此,现有技术中通过平滑处理来改进模型的整体正确率。目前,统计语言模型的平滑方法主要有:绝对折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。这几种方法,都是在使非零概率下降的时候,同时改变了非零概率之间的分布比例,导致语言模型困惑度上升,整体正确率下降。
发明内容
本发明实施例提供一种提高统计语言模型准确度的方法及系统,在不改变非零概率之间的分布比例的情况下,消除零概率,提高语言模型的整体识别率。
为此,本发明实施例提供如下技术方案:
一种提高统计语言模型准确度的方法,包括:
获取训练语料,并将所述训练语料分为两部分:训练集和保留集;
在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
优选地,所述设定范围为0~1。
优选地,所述目标函数为语言模型的困惑度PP:
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示所述词串序列Si在所述训练集语料中出现的次数。
优选地,所述利用对应所述语言模型的最优补偿参数对所述语言模型进行优化,得到优化后的语言模型包括:
对于同阶的非零概率部分,
对于同阶的零概率部分,
其中,词串序列h=Wi-n+1,...,Wi-1,词串序列h′=Wi-n+2,...,Wi-1,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ(h)表示对应h的最优补偿参数,
一种提高统计语言模型准确度的系统,包括:
语料获取模块,用于获取训练语料;
拆分模块,用于将所述训练语料分为两部分:训练集和保留集;
统计模块,用于在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
最优补偿参数获取模块,用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
优化模块,用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
优选地,所述设定范围为0~1。
优选地,所述目标函数为语言模型的困惑度PP:
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示所述词串序列Si在所述训练集语料中出现的次数。
优选地,所述优化模块具体按以下方式对所述语言模型进行优化:
对于同阶的非零概率部分,
对于同阶的零概率部分,
其中,词串序列h=Wi-n+1,...,Wi-1,词串序列h′=Wi-n+2,...,Wi-1,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ(h)表示对应h的最优补偿参数,
本发明实施例提供的提高统计语言模型准确度的方法及系统,在数据平滑后,原先非零概率部分的分布比例保持不变,零概率部分不会超过非零概率部分,在语言模型部分加上补偿参数,调节该补偿参数,使原先非零部分的得分保持与实际分布一样,从而修正一些离谱的错误结果,提高语言模型的整体识别正确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例提高统计语言模型准确度的方法的流程图;
图2是本发明实施例提高统计语言模型准确度的系统的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有的平滑方案存在的问题,本发明实施例提供一种提高统计语言模型准确度的方法及系统,能够消除零概率,并且在数据平滑后,不会改变非零概率部分的分布比例,从而避免了一些离谱的错误识别结果。
假定S表示一个有意义的句子,该句子由一连串顺序排列的词W1,W2,...,Wn组成,即S=W1,W2,...,Wn。由于在对各阶词串(即语言模型)在训练语料中出现的次数进行统计时,可能会出现次数为0的模型,导致零概率问题。为了避免这种情况,在本发明实施例中,将这部分的计数设置在一个设定范围内,比如0~1内(当然,也可以是其它大于0的一个范围,比如0~0.8),并将其作为一个补偿参数加入到语言模型的训练中。
例如,统计模型h=Wi-n+1,...,Wi-1在训练语料中出现的次数为C(h),模型(h,Wi)在训练语料中出现的次数为C(h,Wi),由于C(h,Wi)=0,因此设置对应模型(h,Wi)的补偿参数为λ(h),λ(h)实际上是以h为历史、(h,Wi)没有在训练语料中出现的条目总数的估计值。此时,训练语料的总数量变为C(h)+λ(h)。根据训练语料找出一个最优的λ(h),利用该λ(h)对统计语言模型进行优化,即可在不改变非零概率之间的分布比例的情况下,消除零概率,提高语言模型的平滑度,进而提高语音识别结果的准确性。
如图1所示,是本发明实施例提高统计语言模型准确度的方法的流程图,包括以下步骤:
步骤101,获取训练语料,并将所述训练语料分为两部分:训练集和保留集。
具体地,可以按照任意比例将所述训练语料分为两部分,比如,按0.62:0.38的比例将训练语料分为训练集和保留集两部分,或者按0.5:0.5的比例将训练语料分为训练集和保留集两部分。
步骤102,在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内。
具体地,统计模型h=Wi-n+1,...,Wi-1在训练集语料中出现的次数C(h),以及模型(h,Wi)在训练集语料中出现的次数C(h,Wi)。
步骤103,在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数。
在实际应用中,所述目标函数可以是语言模型的困惑度PP(也可称为复杂度),也可以是交叉熵函数等。
下面以语言模型的困惑度为例,详细说明如何获得所述最优补偿参数。
在本发明实施例中,困惑度的计算可以采用如下公式:
其中,P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,Si=W1,W2,...,Wi,ni表示所述词串序列Si在所述训练集语料中出现的次数。
根据条件概率,词串序列Si在训练集语料中出现的概率等于词串序列Si中各阶词串在训练集语料中出现的条件概率相乘,因此,对于每个词串序列Si,其概率如下:
P(Si)=P(W1)×P(W2|W1)×P(W3|W1,W2)×...×P(Wi|W1,W2,...,Wi-1) (2)
所述条件概率是指事件A在另外一个事件B已经发生条件下的发生概率,条件概率表示为P(A|B),即在B条件下A的概率。具体到本发明实施例中,则在已知词串序列h(h=Wi-n+1,...,Wi-1)的前提下,Wi出现的条件概率为:
其中,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数。
在前面步骤102中,已经对词频为0的语言模型设置了对应的补偿参数,即对应模型h的补偿参数为λ(h)。由于补偿参数λ(h)的设置,训练集语料的总数量可以认为是:C(h)+λ(h),因此,在计算条件概率时,对于可以按照以下的公式来计算:
对于同阶的非零概率部分,
对于同阶的零概率部分,以低阶概率P(Wi|h′)为权进行分配,具体如下:
其中,词串序列h=Wi-n+1,...,Wi-1,词串序列h′=Wi-n+2,...,Wi-1,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ(h)表示对应h的最优补偿参数,
假设λ(h)的设定范围为0~1,可以按照从0到1每次递增0.001的步长(所述步长可以任意设定)遍历所有λ(h),找出使得困惑度PP最小的λ(h)。
需要说明的是,由于对应各模型的λ(h)相互独立,因此可以分开计算保留集中各模型的困惑度,找出使其最小的λ(h),即可得到对应该模型的最优补偿参数。
如果目标函数采用交叉熵函数,则可采用如下公式计算交叉熵函数:
其中,n代表保留集中句子总数,α代表保留集第i句话有多少个词,β代表以hj为历史可选词的总数,hj代表此时出现词Wj的历史。
利用上述交叉熵函数获得所述最优补偿参数的具体过程与上述类似,在此不再赘述。
步骤104,利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
具体地,利用上述公式(4)、(5),重新计算各阶语言模型在所述训练集上的条件概率,所得的值即为最终统计语言模型。
本发明实施例提供的提高统计语言模型准确度的方法,在数据平滑后,原先非零概率部分的分布比例保持不变,零概率部分不会超过非零概率部分,在语言模型部分加上补偿参数,调节该补偿参数,使原先非零部分的得分保持与实际分布一样,从而修正一些离谱的错误结果,提高语言模型的整体识别正确率。
相应地,本发明实施例还提供一种提高统计语言模型准确度的系统,如图2所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
语料获取模块201,用于获取训练语料;
拆分模块202,用于将所述训练语料分为两部分:训练集和保留集;
统计模块203,用于在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
最优补偿参数获取模块204,用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
优化模块205,用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
上述拆分模块202可以按照任意比例将所述训练语料分为两部分,比如,0.5:0.5、0.36:0.64等比例。
需要说明的是,在实际应用中,所述目标函数可以是语言模型的困惑度PP等函数,最优补偿参数获取模块204在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数的详细过程可参照前面本发明方法实施例中的描述,在此不再赘述。
本发明实施例提供的提高统计语言模型准确度的系统,在数据平滑后,原先非零概率部分的分布比例保持不变,零概率部分不会超过非零概率部分,在语言模型部分加上补偿参数,调节该补偿参数,使原先非零部分的得分保持与实际分布一样,从而修正一些离谱的错误结果,提高语言模型的整体识别正确率。
需要说明的是,利用本发明实施例的方法及系统得到的统计语言模型,可以应用于语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等领域。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。而且,其中的一些模块所提供的功能也可以由软件来实现,一些模块可以与现有的设备(比如个人电脑、平板电脑、手机)中的相同功能模块共用。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种提高统计语言模型准确度的方法,其特征在于,包括:
获取训练语料,并将所述训练语料分为两部分:训练集和保留集;
在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
2.根据权利要求1所述的方法,其特征在于,所述设定范围为0~1。
3.根据权利要求1至2任一项所述的方法,其特征在于,所述目标函数为语言模型的困惑度PP:
<mrow> <mi>P</mi> <mi>P</mi> <mo>=</mo> <mroot> <mfrac> <mn>1</mn> <mrow> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mn>1</mn> </msub> </msup> <mn>....</mn> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mi>N</mi> </mroot> <mo>,</mo> <munder> <mi>&amp;Sigma;</mi> <mi>i</mi> </munder> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>N</mi> <mo>;</mo> </mrow>
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示所述词串序列Si在所述训练集语料中出现的次数。
4.根据权利要求3所述的方法,其特征在于,所述利用对应所述语言模型的最优补偿参数对所述语言模型进行优化,得到优化后的语言模型包括:
对于同阶的非零概率部分,
对于同阶的零概率部分,
其中,词串序列h=Wi-n+1,...,Wi-1,词串序列h′=Wi-n+2,...,Wi-1,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ(h)表示对应h的最优补偿参数,
5.一种提高统计语言模型准确度的系统,其特征在于,包括:
语料获取模块,用于获取训练语料;
拆分模块,用于将所述训练语料分为两部分:训练集和保留集;
统计模块,用于在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;
最优补偿参数获取模块,用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;
优化模块,用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。
6.根据权利要求5所述的系统,其特征在于,所述设定范围为0~1。
7.根据权利要求5至6任一项所述的系统,其特征在于,所述目标函数为语言模型的困惑度PP:
<mrow> <mi>P</mi> <mi>P</mi> <mo>=</mo> <mroot> <mfrac> <mn>1</mn> <mrow> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mn>1</mn> </msub> </msup> <mn>....</mn> <mi>P</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <msub> <mi>n</mi> <mi>i</mi> </msub> </msup> </mrow> </mfrac> <mi>N</mi> </mroot> <mo>,</mo> <munder> <mi>&amp;Sigma;</mi> <mi>i</mi> </munder> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>N</mi> <mo>;</mo> </mrow> 1
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示所述词串序列Si在所述训练集语料中出现的次数。
8.根据权利要求7所述的系统,其特征在于,所述优化模块具体按以下方式对所述语言模型进行优化:
对于同阶的非零概率部分,
对于同阶的零概率部分,
其中,词串序列h=Wi-n+1,...,Wi-1,词串序列h′=Wi-n+2,...,Wi-1,C(h)表示h在所述训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ(h)表示对应h的最优补偿参数,
CN201410366038.0A 2014-07-28 2014-07-28 提高统计语言模型准确度的方法及系统 Active CN104112447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410366038.0A CN104112447B (zh) 2014-07-28 2014-07-28 提高统计语言模型准确度的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410366038.0A CN104112447B (zh) 2014-07-28 2014-07-28 提高统计语言模型准确度的方法及系统

Publications (2)

Publication Number Publication Date
CN104112447A CN104112447A (zh) 2014-10-22
CN104112447B true CN104112447B (zh) 2017-08-25

Family

ID=51709208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410366038.0A Active CN104112447B (zh) 2014-07-28 2014-07-28 提高统计语言模型准确度的方法及系统

Country Status (1)

Country Link
CN (1) CN104112447B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833547A (zh) * 2009-03-09 2010-09-15 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法
CN102509549A (zh) * 2011-09-28 2012-06-20 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284308A1 (en) * 2011-05-02 2012-11-08 Vistaprint Technologies Limited Statistical spell checker

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833547A (zh) * 2009-03-09 2010-09-15 三星电子(中国)研发中心 基于个人语料库进行短语级预测输入的方法
CN102509549A (zh) * 2011-09-28 2012-06-20 盛乐信息技术(上海)有限公司 语言模型训练方法及系统
CN103294817A (zh) * 2013-06-13 2013-09-11 华东师范大学 一种基于类别分布概率的文本特征抽取方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN103885938A (zh) * 2014-04-14 2014-06-25 东南大学 基于用户反馈的行业拼写错误检查方法

Also Published As

Publication number Publication date
CN104112447A (zh) 2014-10-22

Similar Documents

Publication Publication Date Title
JP6972265B2 (ja) ポインタセンチネル混合アーキテクチャ
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
CN106815252A (zh) 一种搜索方法和设备
CN110377740A (zh) 情感极性分析方法、装置、电子设备及存储介质
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
CN106095834A (zh) 基于话题的智能对话方法及系统
CN107480143A (zh) 基于上下文相关性的对话话题分割方法和系统
US11803731B2 (en) Neural architecture search with weight sharing
CN109829162A (zh) 一种文本分词方法及装置
CN106445915B (zh) 一种新词发现方法及装置
CN108733644B (zh) 一种文本情感分析方法、计算机可读存储介质及终端设备
CN104965821B (zh) 一种数据标注方法及装置
US11645447B2 (en) Encoding textual information for text analysis
WO2022183923A1 (zh) 短语生成方法、装置和计算机可读存储介质
CN105335375B (zh) 主题挖掘方法和装置
CN105488098A (zh) 一种基于领域差异性的新词提取方法
CN105740354A (zh) 自适应潜在狄利克雷模型选择的方法及装置
CN110347833B (zh) 一种多轮对话的分类方法
CN110765758A (zh) 一种同义句生成模型的生成方法、装置及介质
US20120191740A1 (en) Document Comparison
CN104112447B (zh) 提高统计语言模型准确度的方法及系统
CN109670171B (zh) 一种基于词对非对称共现的词向量表示学习方法
CN104166712A (zh) 科技文献检索方法及系统
JP2010128598A (ja) 文書検索装置及び方法及びプログラム及びプログラムを記録した記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170707

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Applicant after: Anhui Puji Information Technology Co.,Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: IFLYTEK Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Patentee after: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

Address before: 230088, Hefei province high tech Zone, 2800 innovation Avenue, 288 innovation industry park, H2 building, room two, Anhui

Patentee before: Anhui Puji Information Technology Co.,Ltd.

CP01 Change in the name or title of a patent holder
CP03 Change of name, title or address

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: Anhui Xunfei Medical Co.,Ltd.

Address before: Room 288, H2 / F, phase II, innovation industrial park, 2800 innovation Avenue, high tech Zone, Hefei City, Anhui Province, 230088

Patentee before: ANHUI IFLYTEK MEDICAL INFORMATION TECHNOLOGY CO.,LTD.

CP03 Change of name, title or address
CP01 Change in the name or title of a patent holder

Address after: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee after: IFLYTEK Medical Technology Co.,Ltd.

Address before: 230088 floor 23-24, building A5, No. 666, Wangjiang West Road, high tech Zone, Hefei, Anhui Province

Patentee before: Anhui Xunfei Medical Co.,Ltd.

CP01 Change in the name or title of a patent holder