CN101866336A - 获取评价单元、建立句法路径词典的方法、装置及系统 - Google Patents
获取评价单元、建立句法路径词典的方法、装置及系统 Download PDFInfo
- Publication number
- CN101866336A CN101866336A CN200910082342A CN200910082342A CN101866336A CN 101866336 A CN101866336 A CN 101866336A CN 200910082342 A CN200910082342 A CN 200910082342A CN 200910082342 A CN200910082342 A CN 200910082342A CN 101866336 A CN101866336 A CN 101866336A
- Authority
- CN
- China
- Prior art keywords
- syntactic path
- syntactic
- path
- target word
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种获取评价单元、建立句法路径词典的方法、装置及系统,属于计算机领域。所述获取评价单元的方法包括:识别情感句的极性词和目标词;创建句法路径,所述句法路径用于连接所述极性词与所述目标词;根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用于存储标准句法路径;将所述极性词与所述获取的目标词组成评价单元。所述获取评价单元的装置包括:第一识别模块、第一创建模块、第一获取模块和第一组成模块。所述系统包括:获取评价单元的装置和建立句法路径词典的装置。本发明实施例所述技术方案可以提高召回率,减少人工成本。
Description
技术领域
本发明涉及计算机领域,特别涉及一种获取评价单元、建立句法路径词典的方法、装置及系统。
背景技术
情感分析(Sentiment Analysis)主要是针对主观性文本单元,例如篇章、句子、短语、词语等,自动获取有用的意见信息和相关知识。情感分析主要是通过获取情感句中的评价单元,来识别出情感句的褒义、中性还是贬义。其中,评价单元是极性词和目标词的搭配对,极性词(Polarity Word)是表示情感倾向性的词语,目标词(Target Word)是极性词所修饰的某种产品或事件的属性,如在音乐领域,目标词可以为“节奏”、“嗓音”等;在汽车领域,目标词可以为“方向盘”、“座椅”等。因此,评价单元是体现情感句褒贬义的一个重要元素。在实际应用中,如何获取评价单元是进行情感分析的重要组成部分。
为了获取评价单元,现有技术提供了如下两种方法:
第一种方法是使用特殊的共现模板半自动地获取评价单元。该方法定义评价单元为三元组(Subject,Attribute,Value),将评价单元的每个元素作为共现模板的槽值,通过共现模块从待分析的情感句中匹配评价单元的三个元素。例如一个共现模块:<Attribute>of<Subject>is<Value>,待分析的情感句为The picture of this camera is great,对该句子使用共现模板进行匹配来抽取三元组,分别为(this camera,the picture,great)。该方法需要构建Subject、Attribute以及Value三个词典,为每个词典手工挑选种子词语进行初始化以及挑选了8个出现频率较高的共现模板。首先,生成Attribute和Value;其次,通过人工筛选生成的Attribute和Value,将筛选过后的正确的Attribute和Value放入到各自的词典中。
第二种方法是通过研究评价单元二元组(极性词,目标词)来获取评价单元。该方法首先需要建立三个词典,第一个词典是极性词词典,第二个词典是通过手工搜集得到的目标词词典,第三个词典是通过手工创建的链接说明词典,其中,链接说明词典主要是句法关系的描述。该方法通过使用极性词词典和目标词词典,在情感句中标注其所含有的极性词和目标词,使用链接说明词典,根据每一对极性词和目标词的句法关系来判断他们是否是正确的搭配对,从而获取评价单元。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
第一种方法共现模板种类较为单一,涵盖面较窄,从而导致召回率低;选择过程需要进行人工筛选。
第二种方法容易遗漏一些类型的句法关系,从而导致召回率低;构建词典需要手工完成,并且词典的可移植性差。
发明内容
有鉴于此,本发明实施例提供了一种获取评价单元、建立句法路径词典的方法、装置及系统。所述技术方案如下:
一种获取评价单元的方法,所述方法包括:
识别情感句的极性词和目标词;
创建句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;
根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用于事先存储标准句法路径;
将所述极性词与所述获取的目标词组成评价单元。
一种获取评价单元的装置,所述装置包括:
第一识别模块,用于识别情感句的极性词和目标词;
第一创建模块,用于用于创建句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;
第一获取模块,用于根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用于事先存储标准句法路径;
第一组成单元,用于将所述极性词与所述获取的目标词组成评价单元。
一种建立句法路径词典的方法,所述方法包括:
识别情感句语料库的情感句的极性词和目标词;
创建所述情感句的极性词与目标词之间的句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;
对所述句法路径进行泛化;
计算泛化后的所述句法路径出现的次数,将所述计算得到的次数作为所述句法路径的频率;
选取频率超过设定的阈值的所述句法路径作为标准句法路径,将所述标准句法路径组成句法路径词典。
一种建立句法路径词典的装置,所述装置包括:
第二识别模块,用于识别情感句语料库的情感句的极性词和目标词;
第二创建模块,用于创建所述极性词与所述目标词之间的句法路径,所述句法路径用于连接所述极性词与所述目标词;
第二泛化模块,用于对所述句法路径进行泛化;
计算模块,用于计算所述第二泛化模块泛化后的所述句法路径出现的次数,将计算得到的次数作为所述句法路径的频率;
第二组成模块,用于选取频率超过设定的阈值的所述句法路径作为标准句法路径,将所述标准句法路径组成所述句法路径词典。
一种获取评价单元的系统,所述系统包括:
建立句法路径词典的装置,用于识别出情感句语料库的情感句的极性词和目标词,创建所述极性词与所述目标词之间的句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;对所述句法路径进行泛化,计算泛化后的所述句法路径出现的次数,将所述计算得到的次数作为句法路径的频率;选取频率超过设定的阈值的所述句法路径作为标准句法路径,将所述标准句法路径组成句法路径词典;
获取评价单元的装置,用于识别出情感句的极性词和目标词,创建句法路径;根据所述建立句法路径词典的装置建立的句法路径词典获取所述句法路径对应的目标词;将所述极性词与所述获取的目标词组成评价单元。
在本发明实施例中,通过创建极性词与目标词间的句法路径,根据句法路径词典获取句法路径对应的目标词,将极性词与获取的目标词组成评价单元,利用句法路径描述极性词与目标词间的关系,句法路径的种类较多,涵盖面宽,提高了召回率和准确率,在获取评价单元的过程中不需要人工操作,降低了人工成本。
附图说明
图1是本发明实施例1提供的一种获取评价单元的方法的流程图;
图2是本发明实施例2提供的一种获取评价单元的方法的流程图;
图3是本发明实施例提供的句法树结构示意图;
图4是本发明实施例3提供的一种获取句法路径的方法的流程图;
图5是本发明实施例4提供的一种建立句法路径词典的方法的流程图;
图6是本发明实施例5提供的一种获取评价单元的装置的示意图;
图7是本发明实施例6提供的一种建立句法路径词典的装置的示意图;
图8是本发明实施例7提供的一种获取评价单元的系统示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例1
如图1所示,本发明实施例提供了一种获取评价单元的方法,包括:
101:识别出情感句的极性词和目标词;
102:创建句法路径,其中,句法路径用于连接极性词与目标词;
其中,句法路径用于描述极性词与目标词之间的句法关系。
103:根据句法路径词典获取句法路径对应的目标词,其中,句法路径词典用于事先存储标准句法路径;
其中,根据句法路径词典获取句法路径对应的目标词可以参见实施例2和实施例3的相应部分,句法路径词典可以事先按照实施例4提供的方法进行建立,但不限于以上方式。
104:将极性词与获取的目标词组成评价单元。
本发明实施例通过创建句法路径,根据句法路径词典获取句法路径对应的目标词,将极性词与获取的目标词组成评价单元,采用句法路径描述极性词与目标词之间的关系,句法路径的种类多,涵盖面宽,提高了召回率和准确率,在获取评价单元的过程中不需要人工操作,降低人工成本。
实施例2
如图2所示,本发明实施例提供了一种获取评价单元的方法,包括:
201:从待分析的情感句中识别出极性词和目标词;
具体地,对待分析的情感句进行分词,标注每个词的词性,将情感句中的每个词与极性词词典中的每个词进行比对,若极性词词典中存在相同的词,则识别出情感句中的该词为极性词;从情感句包括的所有词中,选取词性为名词或代词的词作为目标词。其中,在情感句中可以包含有一个或多个极性词以及一个或多个目标词。极性词词典用于存储极性词,由于目前已有很多现有的极性词词典,在本实施例中可以采用现有的极性词词典来完成对情感句中的极性词的识别。
其中,在本实施例中目标词的词性可以为名词或代词,其中,名词包括:单数名词、复数名词、专有名词和专有名词复数。在实施例中NN表示单数名词、NNS表示复数名词、NNP表示专有名词、NNPS表示专有名词复数、PRP表示代词。
以情感句“The camera’s image is perfect”为例,具体地,对情感句“The camera’s image is perfect”进行分词并标注每个词的词性,将每个词与极性词词典中的每个词进行比对,其中,极性词词典中包含有“perfect”,所以识别出“perfect”为极性词,将情感句的名词即“image和camera’s”作为目标词。
202:针对识别出的一个极性词,创建该情感句中该极性词与每个目标词之间的句法路径。
具体地,对情感句进行句法分析,得到该情感句的句法树,利用得到的句法树获取该极性词和该目标词在该句法树中的公共最小父节点,其中,公共最小父节点用于链接极性词与目标词,连接该极性词与该目标词之间的路径即为句法路径。利用该方法可以得到情感句中该极性词与所有目标词之间的句法路径。其中,每个句法路径都有对应的目标词。
例如,对情感句The camera’s image is perfect进行句法分析得到的句法树如图3所示,从该句法树中得到极性词perfect的父节点为NN,得到NN的父节点为S,从该句法树中得到目标词image的父节点为JJ,得到JJ的父节点为ADJP,得到ADJP的父节点为VP,得到VP的父节点为S,从而得到公共最小父节点为S,其中,公共最小父节点S链接极性词perfect和目标词image,路径“NN↑NP↑S↓VP↓ADJP↓JJ”为极性词perfect与目标词image之间的句法路径,该句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”对应目标词image。按同样的方法得到极性词perfect和目标词camera’s之间的句法路径为“NNP↑NP↑S↓VP↓ADJP↓JJ”,该句法路径对应目标词camera’s。其中,“↑”和“↓”代表了句法路径的方向,具体表现为是父亲节点还是儿子节点,在图3中的NN↑NP代表NP是NN的父亲节点;而其中的NN表示名词、NP表示名词短语、S表示句子符号、VP表示动词短语、ADJP表示形容词短语、JJ表示形容词,另外,NN、NP、S、VP、ADJP、JJ都是句法成分,句法成分与句法路径的方向组合成句法标签,如“NN↑”。
对于某些情感句,如果包括多个极性词与目标词,则需要创建每个极性词与所有目标词之间的句法路径,如一个情感句中包括极性词A与极性词B,目标词C和目标词D,则需要创建极性词A分别与目标词C和目标词D之间的两个句法路径,创建极性词B分别与目标词C和目标词D之间的两个句法路径,具体创建极性词与目标词间的句法路径参见上述内容。
203:可选地,可以进一步地对步骤202中获取的每个句法路径进行泛化处理,得到经泛化处理的句法路径。
具体地,对获取的每个句法路径可以进行两步泛化:
第一步泛化是将句法路径中连续且相同的句法标签合并,例如,句法路径“NN↑NP↑S ↓VP↓VP↓ADJP↓JJ”中含有两个连续的句法标签“VP↓”,将两个连续的句法标签“VP↓”合并为一个,得到句法路径为“NN↑NP↑S↓VP↓ADJP↓JJ”。
第二步泛化是将句法路径中的相近句法成分用统一的符号代替,能够进行替代的句法成分如表1所示:
表1
句法成分抽象 | 表现形式 |
JJ | JJS、JJR |
NN | NNS、NNP、NNNPS、CD |
RB | RBR、RBS |
VB | VBD、VBG、VBN、VBZ、VV |
S | SBAR、SBARQ、SINV、SQ |
在表1中,每个符号含义如下:JJ表示形容词,JJR表示形容词比较级,JJS表示形容词最高级,NN表示名词,NNS表示名词复数,NNP表示专有名词,NNPS表示专有名词复数,CD表示基数,RB表示副词,RBR表示副词比较级,RBS表示副词最高级,VB表示动词,VBD表示动词过去式,VBG表示动词现在分词,VBN表示动词过去分词,VBZ表示动词第三人称,VV表示动词,S表示句子标示,SBAR表示从属连词链接的分句,BARQ表示由wh-词和wh-短语引发的问句,SINV表示主语倒装的陈述句,SQ表示SBARQ的子内容。
表1中,表现形式的所有句法成分在进行替代操作时,都将替换为表1的句法成分抽象的句法成分。例如形容词最高级“JJS”和形容词比较级“JJR”在句法分析中虽然是不同的句法成分,但是分别由它们组成的句法关系相似,所以将两个句法成分都用一个句法成分“JJ”代替。例如,对于一个句法路径“JJR↑NP↓NNS”经过第二步泛化后得到的句法路径为“JJ↑NP↓NN”,即将句法标签NNS替代为句法标签NN。
例如,对202中得到的其中一个句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”进行两步泛化,第一步,将句法路径中连续且相同的句法成分合并,得到句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”,第二步,将第一步得到的句法路径中相近的句法成分用统一的符号代替,得到句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”。
对202中得到的另一个句法路径“NNP↑NP↑S↓VP↓ADJP↓JJ”进行两步泛化,第一步,将句法路径中连续且相同的句法成分合并,得到句法路径“NNP↑NP↑S↓VP↓ADJP↓JJ”,第二步,将句法成分NNP替代为NN,得到句法路径为“NN↑NP↑S↓VP↓ADJP↓JJ”。
经过上述两步泛化后,“perfect”与“image”之间的句法路径与“perfect”与“camera’s”之间的句法路径相同,此时,根据步骤202得到的句法树获得“image”和“camera’s”所在的短语“The camera’s image”,选择该短语中位置最右的目标词“image”,保留perfect”与“image”之间的句法路径,丢弃“perfect”与“camera’s”之间的句法路径,执行204。
另外,泛化得到相同的句法路径个数为三个或三个以上时,根据步骤202得到的句法树获得每个相同句法路径对应的目标词所共同存在的短语,选择在短语中位置最右的目标词,保留极性词与选择的目标词之间的句法路径,丢弃其他相同的句法路径,执行204。
204:当泛化后得到的句法路径的个数为两个或两个以上时,执行205,否则执行210;
205:计算出每个泛化后得到的句法路径的编辑距离和优先级。
在本实施例中,编辑距离是指将一个句法路径转换为另一个句法路径的操作步数,该操作具体包括插入、删除和替换。具体地,将一个泛化后得到的句法路径分别转换成句法路径词典中的每个标准句法路径,并记录每次转换操作的步数,选取最少的转换操作步数作为该句法路径的编辑距离,同时选取与该句法路径最相似的标准句法路径,将该句法路径的优先级设置为选取的标准句法路径的优先级,关于优先级可以参考后续实施例4的相关描述。其中,编辑距离表示句法路径与句法路径词典中对应的最相似的标准句法路径之间的匹配程度,句法路径的编辑距离越小,表示其与最相似的标准句法路径之间的匹配程度就越高,句法路径的编辑距离为零表示其与最相似的标准句法路径是完全匹配。其中,句法路径转换成最相似的标准句法路径所需要转换操作的步数最少,例如,句法路径A转换成标准句法路径C需要转换操作的步数为5,句法路径A转换成标准句法路径B需要转换操作的步数为3,句法路径A转换成标准句法路径D需要转换操作的步数1,由于句法路径A转换成标准句法路径D所需要转换操作的步数最少,句法路径D为最相似的标准句法路径。句法路径词典可以事先按照实施例4提供的方法进行建立得到。
在本实施例中,以句法标签作为计算编辑距离的比较单元,以标准句法路径作为参考对象,将以句法标签为单元并利用现有的编辑距离算法将句法路径转换成标准句法路径,并记录转换操作的步数。例如,对于一个句法路径JJ↑NP↓NX↓NN转换成另一个句法路径JJ↑ADJP↑NP↓NN需要做两步替换操作,将句法标签NP↓替换为句法标签ADJP↑,将句法标签NX↓替换为句法标签NP↓,所以,句法路径JJ↑NP↓NX↓NN的编辑距离为2;将句法路径JJ↑NP↓NX↓NN转换成JJ↑NP↓NN,则需要做一步删除操作,将句法标签NX↓删除掉,因此编辑距离是1;将句法路径JJ↑NP↓NN转换成JJ↑NP↓NX↓NN,则需要做一步插入操作,将句法标签NX↓插入句法路径JJ↑NP↓NN中,因此编辑距离是1。
其中,在本实施例中,可以采用如下编辑距离算法计算句法路径与标准句法路径之间的编辑距离:
int LevenshteinDistance(char s[1..m],char t[1..n])
{
//s是句法路径,t是标准句法路径,s[i]和t[i]是句法路径中的句法标签
//d is a table with m+1 rows and n+1 columns
deelare int d[0..m,0..n]
for i from 0 to m
d[i,0]:=i//初始化行
for j from 0 to n
d[0,j]:=j//初始化列
for i from 1 to m
forj from 1 to n
{
if s[i]=t[j] then cost:=0//如果比较的两个单元相同,则cost=0
else cost:=1//否则cost=1
//下面显示d[i,j]这个单元的编辑距离公式,也就是句法子路径s[1]
s[2]...s[i]和t[1]t[2]...t[j]之间编辑距离,具体如下
d[i,j]:=minimum(
d[i-1,j]+1//deletion,删除
d[i,j-1]+1//insertion,插入
d[i-1,j-1]+cost//substitution,替换
)
}
return d[m,n]返回整个数组
}
例如,利用上述算法计算句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”与标准句法路径“JJ↑NP↓NN”之间的编辑距离,得到数组d[3,6],如表2所示
表2
列号 | NN↑ | NP↑ | S↓ | VP↓ | ADJP↓ | JJ | |
行号 | 0 | 1 | 2 | 3 | 4 | 5 | 6 |
JJ↑ | 1 | 1 | 2 | 3 | 4 | 5 | 5 |
NP↓ | 2 | 2 | 1 | 2 | 3 | 4 | 5 |
NN | 3 | 3 | 2 | 2 | 3 | 4 | 5 |
数组中的每个元素表示两句法路径之间的编辑距离,如d[2,2]=1是句法路径“NN↑NP”与句法路径“JJ↑NP”之间的编辑距离,取值为1,d[3,6]=5是句法路径“JJ↑NP↓NN”与标准句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”之间的编辑距离,取值为5。
206:当步骤205中计算的所有的句法路径中存在编辑距离小于或等于阈值的句法路径时,执行207,否则,执行213。
其中,该阈值是预先设置的阈值,例如预先设置阈值为1。另外,该阈值还可以设置为其他值,如2、3等。
例如,将本实施例的方法应用于Camera领域,事先通过实验验证设置的不同的阈值得到的结果如表3所示,从表3的结果可以看出当设置的阈值为0时,召回率较低但准确率较高,当设置的阈值为2或3时,召回率较高但准确率下降,当设置的阈值为1时,兼顾了召回率和准确率且调和平均值最高,获取评价单元的性能最佳。
表3
设置的阈值 | 0 | 1 | 2 | 3 |
召回率 | 78.89% | 83.53% | 83.53% | 83.55% |
准确率 | 83.54% | 82.19% | 80.54% | 80.52% |
调和平均值 | 81.15% | 82.85% | 82.00% | 82.00% |
207:从所有编辑距离小于或等于阈值的句法路径中选取编辑距离最小的句法路径;
在本实施例中,编辑距离小于或等于阈值的句法路径与句法路径词典中对应的最相似的标准句法路径之间的匹配程度较高,有一类句法路径虽然不是与句法路径词典中的对应的最相似的标准句法路径完全匹配,但是该类句法路径的编辑距离小于或等于阈值,因此,该句法路径的匹配程度较高,所以从编辑距离小于或等于阈值的句法路径中进行选取编辑距离最小的句法路径,可以避免该类句法路径的丢失,从而能够有效地避免丢掉某些正确的评价单元,提高了召回率和准确率。
208:当步骤207中选取的句法路径的个数是两个或两个以上时,执行209;否则,选取的句法路径的个数只有一个,执行212;
209:从选取的多个句法路径中选取优先级最高的句法路径,执行212;
210:计算泛化处理得到的句法路径的编辑距离;
具体地,将该泛化后得到的句法路径分别转换成句法路径词典中的每个标准句法路径,并记录每次转换操作的步数,选取最少的转换操作的步数作为该句法路径的编辑距离。
例如,计算步骤203泛化后的句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”的编辑距离,如表4所示为句法路径词典,以句法路径词典中的每个标准句法路径作为参考对象,并利用现有的编辑距离算法将句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”分别转换成句法路径词典中的每个标准句法路径,并记录每次转换操作的步数,选取最少操作步数作为该句法路径的编辑距离。具体地,将句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”转换成标准句法路径“JJ↑NP↓NN”,需要做两步替换操作和三步删除操作,即将句法标签NN↑替换为句法标签JJ↑,将句法标签JJ替换为句法标签NN,分三步删除句法标签S↓、VP↓、ADJP↓、记录此次转换操作的步数为5;将句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”转换成标准句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”,需要转换操作的步数为0;将句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”转换成标准句法路径“NN↑NP↓NN”,需要做一步替换操作和三步删除操作,即将句法标签JJ替换为句法标签NN,分三步删除句法标签S↓、VP↓、ADJP↓,记录此次转换操作的步数为4;分别将句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”转换成句法路径词典中其他的标准句法路径,并记录每次转换操作的步数,选取最少操作步数0作为句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”的编辑距离。
表4
标准句法路径 |
JJ↑NP↓NN |
NN↑NP↑S↓VP↓ADJP↓JJ |
NN↑NP↓NN |
…… |
211:当计算出的该句法路径的编辑距离小于或等于阈值时,执行212,否则,执行213;
212:获得句法路径对应的目标词,将极性词与获得的目标词组成评价单元。
例如,判断出句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”的编辑距离小于或等于阈值,该句法路径“NN↑NP↑S↓VP↓ADJP↓JJ”对应目标词“image”,获取该句法路径对应的目标词“image”将“perfect”与获取的“image”组成评价单元。
其中,实现本实施提供的获取评价单元的方法的伪代码具体如下:
Input:A sentence s with polarity words labled,Syntactic Path Lesicon
输入:已经标注过极性词的句子s,句法路径词典
Output:appraisal expressions in s
输出:句子s中的评价单元
Foreach polarity word pw in s //对于句子s中的每个极性词pw
Do edit Distance=0;//设置editDistance=0
Foreach candidate syntactic path csp for pw do
//对于极性词pw的每个句法路径csp
/*candidate syntactic path is the linkage between
pw and any NOUN/PROUNOUN in s*/
/*在句子s中,极性词pw与句中任何一名词/代词之间的句法路径
*/
minED=∞;
foreach syntactic path sp in the Lexicon do
//根据句法路径词典中的每一条标准句法路径sp
edit Distance=minimum number of operations between csp and sp;
//editDistance=句法路径csp和sp之间的编辑距离
if edit Distance<min ED then//如果editdistance<minED
minED=editDistance;
end
end
if minED<=th then//如果minED小于某一阈值
Record the pair<csp,NOUN/PRONOUN>
//记录下来这个对<csp,NOUN/PRONOUN>
end
end
From all the<csp,NOUN/PRONOUN>;
//找到所有的<csp,NOUN/PRONOUN>
Choose the highest priority path csp,
//选择最高优先级的句法路径csp
its corresponding NOUN/PRONOUN is the target t;
//选择的句法路径所对应的NOUN/PRONOUN就是目标词t
Record the pair as the appraisal expression;
//记录所有的<pw,t>为评价单元
End
213:当情感句中还存在其他的极性词,则返回执行202,否则结束操作。
本发明实施例中通过创建每个极性词与所有目标词之间的句法路径,计算每个句法路径的编辑距离,选取编辑距离小于或等于阈值的句法路径,获得选取的句法路径对应的目标词,将极性词与目标词组成评价单元,采用句法路径描述极性词与目标词之间的关系,由于句法路径的种类多,涵盖面较宽,提高了召回率和准确率,另外,句法路径通过自动地创建得到,可以识别出人工不易描述的句法路径,避免遗漏部分句法路径,并且不需要人工工作,同时提高了召回率和准确率,另外,当选取的编辑距离最小的句法路径为多个时,选取优先级最高的句法路径,再获取优先级最高的句法路径对应的目标词,使得获取的目标词更加精确,提高了准确率。
实施例3
如图4所示,本发明实施例提供了一种获取评价单元的方法,包括:
301:从待分析的情感句中识别出极性词和目标词;
具体内容可以参照实施2中的步骤201,在此不再赘述。
302:针对识别出的一个极性词,创建该情感句中该极性词与每个目标词之间的句法路径;
具体内容可以参照实施2中的步骤202,在此不再赘述。
303:可选地,可进一步地对步骤302中创建的每个句法路径进行泛化处理,得到经泛化处理的句法路径;
具体内容可以参照实施2中的步骤203,在此不再赘述。
304:将泛化处理得到的每个句法路径与句法路径词典中的每个标准句法路径进行比较,当句法路径词典中存在相同的句法路径时,则执行305,否则,执行310;
其中,句法路径词典可以事先利用实施例4的方法进行建立,该句法路径词典用于存储标准句法路径。
305:当步骤304中得到的相同的句法路径的个数为两个或两个以上时,执行306,否则,执行308;
306:将得到的句法路径的优先级设置为与其相同的标准句法路径的优先级;
307:从设置优先级的多个句法路径中,选取优先级最高的句法路径,执行308;
308:获取句法路径对应的目标词;
309:将极性词与获取的目标词组成评价单元。
310:当情感句中还存在其他的极性词,则返回执行302,否则,结束操作。
本发明实施例通过创建极性词与目标词之间的句法路径,找出与句法路径词典中的标准句法路径相同的句法路径,获取找出的句法路径对应的目标词,将极性词与获取的目标词组成评价单元,由于采用句法路径描述极性词与目标词之间的关系,且句法路径的种类较多,涵盖面较宽,提高了召回率和准确率,另外,句法路径通过自动创建得到的,不需要人工工作,减少了人工成本,能够识别出人工不易描述的句法路径,避免了遗漏部分句法路径,提高了召回率和准确率。另外,当句法路径词典中存在多个相同的句法路径时,选取优先级最高的句法路径,再获取优先级最高的句法路径对应的目标词,使得获取的目标词更加精确,提高了准确率。
实施例4
如图5所示,本实施例提供了一种建立句法路径词典的方法,包括:
401:识别出情感句语料库的每个情感句包括的极性词与目标词;
具体地,对情感句语料库的每个情感句进行分词,标注每个词的词性,将情感句包括的每个词与极性词词典中的每个词进行比对,若极性词词典中存在相同的词,则识别出该词为极性词;选取每个情感句中包括的词性为名词或代词的词作为目标词。
其中,情感句语料库中包括大量的情感句,本实施例采用的情感句语料库是现有的情感句语料库,极性词词典用于存储极性词,本实施例采用的极性词词典是现有的极性词词典。
402:创建每个情感句包括的极性词与目标词之间的句法路径;
具体地,对情感句进行句法分析,得到该情感句的句法树,根据得到的句法树获取情感句中的每对极性词和目标词在该句法树中的公共最小父节点,公共最小父节点用于链接极性词与目标词,其中,连接极性词和目标词的之间的路径为句法路径,对该情感句语料库的每个情感句包括的每对极性词和目标词按上述方法创建,得到该情感句语料库的所有句法路径。其中,创建句法路径的详细过程可以参见实施例2的的相应部分,在此不再赘述。
其中,在本实施例中能够自动地创建情感句语料库中的句法路径,从而能识别出一些不容易被人工描述的句法路径,提高了召回率和准确率,也提高了可移植性。
403:对每个创建得到的句法路径进行泛化处理,得到经泛化处理的句法路径;
具体地,对每个句法路径进行两步泛化,第一步将每个句法路径中的连续且相同的句法标签合并;第二步将经过第一步得到的每个句法路径中的相近的句法成分用统一的符号代替。详细的过程可以参见实施例2的相关描述,在此不再赘述。
404:计算泛化后的每个句法路径出现的次数,将计算得到的次数作为该句法路径的频率,将所有句法路径按频率进行排序;
405:选取频率超过设定的阈值的句法路径作为标准句法路径,将选取的标准句法路径组成句法路径词典。
其中,本实施例中可以将选取的标准句法路径按频率降低的顺序写入到文档中得到句法路径词典,将每个标准句法路径的频率作为其自身的优先级,所以频率越高,标准句法路径的优先级越高。如表5所示一个句法路径词典,左列为标准句法路径,右列为句法路径出现的频率。
表5
Path | Frequency(Times) |
JJ↑NP↓NN | 930 |
NN↑NP↑S↓VP↓ADJP↓JJ | 489 |
NN↑NP↓NN | 232 |
…… | …… |
在本实施例中设定的阈值是根据实验得到的经验值,通过实验验证设置的不同的阈值得到的结果如表6所示,当设定的阈值为70时,获取评价单元的调和平均值最高。
表6
设置的阈值 | 10 | 30 | 70 | 100 |
调和平均值 | 75% | 80% | 82.85% | 80.6% |
在本发明实施例中通过识别出每个情感句的极性词与目标词,创建每个情感句中的每对极性词与目标词之间的句法路径,对每个句法路径进行泛化,计算每个句法出现的频率,选取频率超过设定的阈值的句法路径组成句法路径词典,由于能够自动地创建句法路径词典,不需要手工操作,降低了人工成本,提高了可移植性。
实施例5
如图6所示,本发明实施例提供了一种获取评价单元的装置,包括:
第一识别模块501,用于识别出情感句的极性词和目标词;
第一创建模块502,用于创建句法路径,其中,句法路径用于连接极性词与目标词;
第一获取模块503,用于根据句法路径词典获取句法路径对应的目标词,其中,句法路径词典用于存储标准句法路径;
第一组成模块504,用于将极性词与获取的目标词组成评价单元。
其中,第一创建模块502,具体用于对情感句进行句法分析,得到该情感句的句法树;根据得到的句法树获取极性词与目标词在该句法树中的公共最小父节点,公共最小父节点用于链接极性词与目标词,其中,连接极性词与目标词之间的路径为句法路径;
第一获取模块503,具体用于将句法路径与句法路径词典中的标准句法路径进行比较,得到与标准句法路径相同的句法路径;当得到的句法路径的个数为一个时,获取得到的句法路径对应的目标词,或当得到的句法路径的个数为两个或两个以上时,选取优先级最高的句法路径,获取选取的句法路径对应的目标词;
当创建的句法路径的个数为一个时,
第一获取模块503,具体用于将句法路径分别转换成句法路径词典中的标准句法路径,将转换操作作为该句法路径的编辑距离;当句法路径的编辑距离小于或等于预设的阈值时,则获取句法路径对应的目标词。
当创建的句法路径的个数为两个或两个以上时,
第一获取模块503,具体用于将句法路径分别转换成句法路径词典中的标准句法路径,将转换操作作为该句法路径的编辑距离;确定编辑距离小于或等于预设的阈值的句法路径,从编辑距离小于或等于预设的阈值的句法路径中,选择编辑距离最小的句法路径;获取选择的句法路径对应的目标词。
当选择的编辑距离最小的句法路径为两个或两个以上时,
第一获取模块503,还用于选择优先级最高的句法路径;获取所述选择的优先级最高的句法路径对应的目标词。
其中,转换操作至少包括以下操作之一:替换、删除、插入;
进一步地,还包括:
第一泛化模块505,用于对句法路径进行两步泛化,其中,第一步泛化是将句法路径中连续且相同的句法标签合并;第二步泛化是将第一步泛化得到的句法路径中相近的句法成分用统一的符号代替。
当泛化后得到相同的句法路径为两个或两个以上时,
第一泛化模块,还用于根据句法树得到所有相同句法路径对应的目标词所共同存在的短语,获取位置在该短语最右的目标词;保留极性词与获取的位置在该短语最右的目标词之间的句法路径,丢弃其他相同的句法路径。
进一步地,该装置还包括建立句法路径词典模块,用于建立句法路径词典,其中,句法路径词典用于存储标准句法路径。该建立句法路径词典模块的结构可以具体参照如下实施例6的描述。
本发明实施例中通过识别模块识别出情感句的极性词和目标词,创建模块创建极性词与目标词间的句法路径,获取模块获取句法路径对应的目标词,组成模块将极性词与获取的目标词组成评价单元,采用句法路径描述极性词与目标词之间的关系,句法路径的种类多,涵盖面宽,提高了召回率和准确率,在获取评价单元的过程中不需要人工操作,可移植性较强。
实施例6
如图7所示,本发明实施例提供了一种建立句法路径词典的装置,包括:
第二识别模块601,用于识别出情感句语料库的情感句的极性词和目标词;
第二创建模块602,用于创建极性词与目标词之间的句法路径,其中,句法路径用于连接极性词与目标词;
第二泛化模块603,用于对句法路径进行泛化;
计算模块604,用于计算泛化模块603泛化后的句法路径出现的次数,将计算得到的次数作为句法路径的频率;
第二组成模块605,用于选取频率超过设定的阈值的句法路径作为标准句法路径,将标准句法路径组成句法路径词典。
其中,第二识别模块601,具体用于对情感句语料库的情感句进行分词,标注每个词的词性;将情感句包括的每个词与极性词词典中的词进行比对,若极性词词典中存在相同的词,则识别出该词为极性词;选取情感句中的词性为名词或代词的词作为目标词;
第二创建模块602,具体用于对情感句进行句法分析,得到该情感句的句法树;根据得到的句法树获取极性词和目标词的公共最小父节点,其中,公共最小父节点用于链接极性词与目标词,连接极性词和目标词之间的路径为句法路径。
第二泛化模块603,具体用于将句法路径中的连续且相同的句法标签合并;将合并得到的句法路径中相近的句法成分用统一的符号代替。
在本发明实施例中通过创建模块创建情感句的每对极性词与目标词之间的句法路径,泛化模块对句法路径进行泛化,计算模块计算句法出现的频率,组成模块选取频率超过设定的阈值的句法路径组成句法路径词典,由于能够自动地创建句法路径词典,不需要手工操作,提高了可移植性。
实施例7
如图8所示,本发明实施例提供了一种获取评价单元的系统,包括:
建立句法路径词典的装置701,用于识别出情感句语料库的情感句的极性词和目标词,创建极性词与目标词之间的句法路径,其中,句法路径用于连接极性词与目标词;对句法路径进行泛化,计算泛化后的句法路径出现的次数,将计算得到的次数作为句法路径的频率;选取频率超过设定的阈值的句法路径作为标准句法路径,将标准句法路径组成句法路径词典;
获取评价单元的装置702,用于识别出情感句的极性词和目标词,创建句法路径;根据建立句法路径词典的装置701建立的句法路径词典获取句法路径对应的目标词;将极性词与获取的目标词组成评价单元。
其中,获取评价单元的装置的结构和功能的详细描述过程可以参见实施例5;建立句法路径词典的装置的结构和功能的详细描述过程可以参见实施例6。
本发明实施例通过获取评价单元的装置创建极性词与目标词间的句法路径,根据建立句法路径词典的装置建立的句法路径词典获取句法路径对应的目标词,将极性词与获取的目标词组成评价单元,利用句法路径描述极性词与目标词间的关系,句法路径的种类较多涵盖面宽,提高了召回率和准确率,在获取评价单元的过程中不需要人工操作,降低了人工成本。
通过实验对实施例2和实施例3提供的方法与现有技术的第二种方法进行比较。本实验对两类产品进行评价,分别为MP3和数码相机。每个领域选取300个情感句,人工标注其中的所有评价单元,分别是数码相机领域为431个、MP3领域为399个。在实施例2提供的方法中需要事先设置阈值为1,对每种方法得到的结果进行计算得到每种方法的相关参数,分别为Pae(Precision,准确率)、Rae(Recall,召回率)和Fae(调和平均值)。其中,Fae是对系统最终的评价指标。
其中,以上三个参数的计算方法分别为:
Pae=系统标注正确的评价单元数量/系统标注出的评价单元总数
Rae=系统标注正确的评价单元数量/人工标出的评价单元的总数
Fae=(2×Pae×Rae)/(Pae+Rae)
在本实验中得到数码相机领域的实验结果如表6所示:
表6
方法种类 | Pae | Rae | Fae |
实施例2 | 82.19% | 83.53% | 82.85% |
实施例3 | 83.54% | 78.89% | 81.15% |
现有技术2 | 82.99% | 64.50% | 72.58% |
在本实验中得到的MP3领域的实验结果如表7所示:
表7
方法种类 | Pae | Rae | Fae |
实施例2 | 81.02% | 83.46% | 82.22% |
实施例3 | 84.23% | 70.93% | 77.01% |
现有技术2 | 81.32% | 55.64% | 66.07% |
从表6和表7记录的结果得出利用实施例2提供的方法获取情感句的评价单元,可以有效的提高召回率,从而促进调和平均值的提高。
此外,由于现有技术1中的“Attribute”和“Value”的选择过程需要进行人工筛选,而现有技术2中所需的三个词典也需要人工建立,费时费力。因此这两种现有技术的可移植性差。
本发明实施例通过自动地建立句法路径词典,避免了现有技术的缺点,并具有下述优点:
(1)不需要人工干预,省时省力;
(2)可以适应于任何情感句语料库,任何语种;
(3)句法路径描述了极性词和目标词之间的关系,比现有技术1使用的共现模板和现有技术2中的“链接说明”更加细致。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上对本发明实施例所进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (14)
1.一种获取评价单元的方法,其特征在于,所述方法包括:
识别情感句的极性词和目标词;
创建句法路径,所述句法路径用于连接所述极性词与所述目标词;
根据句法路径词典获取所述句法路径对应的目标词,其中,所述句法路径词典用于存储标准句法路径;
将所述极性词与所述获取的目标词组成评价单元。
2.根据权利要求1所述的方法,其特征在于,所述创建句法路径,包括:
对所述情感句进行句法分析,得到所述情感句的句法树;
根据所述句法树获取所述极性词与所述目标词在所述句法树中的公共最小父节点,所述公共最小父节点用于链接所述极性词与所述目标词,其中,连接所述极性词与所述目标词之间的路径为所述句法路径。
3.根据权利要求1所述的方法,其特征在于,所述根据句法路径词典获取所述句法路径对应的目标词,包括:
将所述句法路径与所述句法路径词典中的标准句法路径进行比较,得到与所述标准句法路径相同的句法路径;
当所述得到的句法路径的个数为一个时,获取所述得到的句法路径对应的目标词,或当所述得到的句法路径的个数为两个或两个以上时,选取优先级最高的句法路径,获取所述选取的句法路径对应的目标词。
4.根据权利要求1所述的方法,其特征在于,当所述创建的句法路径为一个时,所述根据句法路径词典获取所述句法路径对应的目标词,包括:
将所述句法路径转换成所述句法路径词典中的标准句法路径,将转换操作作为所述句法路径的编辑距离;
当所述句法路径的编辑距离小于或等于预设的阈值时;
获取所述句法路径对应的目标词。
5.根据权利要求1所述的方法,其特征在于,当所述创建的句法路径为两个或两个以上时,所述根据句法路径词典获取所述句法路径对应的目标词,包括:
将所述句法路径转换成所述句法路径词典中的标准句法路径,将转换操作作为所述句法路径的编辑距离;
确定编辑距离小于或等于预设的阈值的句法路径,从所述编辑距离小于或等于预设的阈值的句法路径中,选择编辑距离最小的句法路径;
获取所述选择的句法路径对应的目标词。
6.根据权利要求5所述的方法,其特征在于,当所述选择所述编辑距离最小的句法路径为两个或两个以上时,选择优先级最高的句法路径;
其中,所述获取所述选择的句法路径对应的目标词,具体包括:
获取所述选择的优先级最高的句法路径对应的目标词。
7.根据权利要求1-6任意一项所述的方法,其特征在于,在所述创建句法路径之后,在所述根据句法路径词典获取所述句法路径对应的目标词之前,还包括:泛化所述句法路径,其具体包括:
将所述句法路径中连续且相同的句法标签合并;
将合并得到的句法路径中相近的句法成分用统一的符号代替。
8.根据权利要求7所述的方法,其特征在于,当泛化后得到两个或两个以的相同的句法路径时,所述泛化所述句法路径的步骤,还包括:
根据句法树得到所述获取的所有所述相同句法路径对应的目标词所共同存在的短语,获取位置在所述短语最右的目标词;
保留所述极性词与所述获取的位置在所述短语最右的目标词之间的句法路径。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:建立句法路径词典,所述建立句法路径词典具体包括:
识别情感句语料库的情感句的极性词和目标词;
创建所述情感句的极性词与目标词之间的句法路径;
对所述句法路径进行泛化;
计算所述泛化后的句法路径出现的次数,将所述计算得到的次数作为所述句法路径的频率;
选取频率超过设定的阈值的句法路径作为标准句法路径,将所述标准句法路径组成句法路径词典。
10.一种建立句法路径词典的方法,其特征在于,所述方法包括:
识别情感句语料库的情感句的极性词和目标词;
创建所述情感句的极性词与目标词之间的句法路径,所述句法路径用于连接所述极性词与所述目标词;
对所述句法路径进行泛化;
计算所述泛化后的句法路径出现的次数,将所述计算得到的次数作为所述句法路径的频率;
选取频率超过设定的阈值的句法路径作为标准句法路径,将所述标准句法路径组成句法路径词典。
11.根据权利要求10所述的方法,其特征在于,所述创建所述情感句的极性词与目标词之间的句法路径,包括:
对所述情感句进行句法分析,得到所述情感句的句法树;
根据所述句法树获取所述极性词和所述目标词的公共最小父节点,所述公共最小父节点用于链接所述极性词与所述目标词,连接所述极性词和所述目标词之间的路径为所述句法路径。
12.一种获取评价单元的装置,其特征在于,所述装置包括:
第一识别模块,用于识别情感句的极性词和目标词;
第一创建模块,用于创建句法路径,所述句法路径用于连接所述极性词与所述目标词;
第一获取模块,用于根据句法路径词典获取所述句法路径对应的目标词,所述句法路径词典用于存储标准句法路径;
第一组成模块,用于将所述极性词与所述获取的目标词组成评价单元。
13.一种建立句法路径词典的装置,其特征在于,所述装置包括:
第二识别模块,用于识别情感句语料库的情感句的极性词和目标词;
第二创建模块,用于创建所述极性词与所述目标词之间的句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;
第二泛化模块,用于对所述句法路径进行泛化;
计算模块,用于计算所述第二泛化模块泛化后的所述句法路径出现的次数,将计算得到的次数作为所述句法路径的频率;
第二组成模块,用于选取频率超过设定的阈值的所述句法路径作为标准句法路径,将所述标准句法路径组成句法路径词典。
14.一种获取评价单元的系统,其特征在于,所述系统包括:
建立句法路径词典的装置,用于识别出情感句语料库的情感句的极性词和目标词,创建所述极性词与所述目标词之间的句法路径,其中,所述句法路径用于连接所述极性词与所述目标词;对所述句法路径进行泛化,计算泛化后的所述句法路径出现的次数,将所述计算得到的次数作为句法路径的频率;选取频率超过设定的阈值的所述句法路径作为标准句法路径,将所述标准句法路径组成句法路径词典;
获取评价单元的装置,用于识别出情感句的极性词和目标词,创建句法路径;根据所述建立句法路径词典的装置建立的句法路径词典获取所述句法路径对应的目标词;将所述极性词与所述获取的目标词组成评价单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910082342A CN101866336A (zh) | 2009-04-14 | 2009-04-14 | 获取评价单元、建立句法路径词典的方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910082342A CN101866336A (zh) | 2009-04-14 | 2009-04-14 | 获取评价单元、建立句法路径词典的方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101866336A true CN101866336A (zh) | 2010-10-20 |
Family
ID=42958067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910082342A Pending CN101866336A (zh) | 2009-04-14 | 2009-04-14 | 获取评价单元、建立句法路径词典的方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101866336A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095177A (zh) * | 2014-05-04 | 2015-11-25 | 萧瑞祥 | 文章的意见单元识别方法及其相关装置与计算机程序产品 |
CN106294324A (zh) * | 2016-08-11 | 2017-01-04 | 上海交通大学 | 一种基于自然语言句法分析树的机器学习情感分析器 |
CN107729317A (zh) * | 2017-10-13 | 2018-02-23 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
CN108052499A (zh) * | 2017-11-20 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的文本纠错方法、装置及计算机可读介质 |
CN108091328A (zh) * | 2017-11-20 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
CN108460017A (zh) * | 2018-02-28 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 语料泛化方法、装置、电子设备及可读存储介质 |
-
2009
- 2009-04-14 CN CN200910082342A patent/CN101866336A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095177A (zh) * | 2014-05-04 | 2015-11-25 | 萧瑞祥 | 文章的意见单元识别方法及其相关装置与计算机程序产品 |
CN106294324A (zh) * | 2016-08-11 | 2017-01-04 | 上海交通大学 | 一种基于自然语言句法分析树的机器学习情感分析器 |
CN106294324B (zh) * | 2016-08-11 | 2019-04-05 | 上海交通大学 | 一种基于自然语言句法分析树的机器学习情感分析器 |
CN107729317A (zh) * | 2017-10-13 | 2018-02-23 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
CN107729317B (zh) * | 2017-10-13 | 2021-07-30 | 北京三快在线科技有限公司 | 评价标签的确定方法、装置及服务器 |
CN108052499A (zh) * | 2017-11-20 | 2018-05-18 | 北京百度网讯科技有限公司 | 基于人工智能的文本纠错方法、装置及计算机可读介质 |
CN108091328A (zh) * | 2017-11-20 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
CN108091328B (zh) * | 2017-11-20 | 2021-04-16 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
CN108052499B (zh) * | 2017-11-20 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的文本纠错方法、装置及计算机可读介质 |
CN108460017A (zh) * | 2018-02-28 | 2018-08-28 | 百度在线网络技术(北京)有限公司 | 语料泛化方法、装置、电子设备及可读存储介质 |
CN108460017B (zh) * | 2018-02-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 语料泛化方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718586B (zh) | 分词的方法及装置 | |
CN109213861B (zh) | 结合At_GRU神经网络与情感词典的旅游评价情感分类方法 | |
CN106815192B (zh) | 模型训练方法及装置和语句情感识别方法及装置 | |
CN105244029B (zh) | 语音识别后处理方法及系统 | |
CN107832229A (zh) | 一种基于nlp的系统测试用例自动生成方法 | |
CN105095190B (zh) | 一种基于中文语义结构和细分词库结合的情感分析方法 | |
CN105975625A (zh) | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 | |
Qian et al. | Disfluency detection using multi-step stacked learning | |
CN103440252B (zh) | 一种中文句子中并列信息提取方法及装置 | |
CN103020230A (zh) | 一种语义模糊匹配方法 | |
CN101866336A (zh) | 获取评价单元、建立句法路径词典的方法、装置及系统 | |
CN104756100A (zh) | 意图估计装置以及意图估计方法 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN103688254B (zh) | 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备 | |
JPWO2014002776A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN110889310A (zh) | 金融文档信息智能提取系统及方法 | |
CN101799802A (zh) | 利用结构信息进行实体关系提取的方法和系统 | |
CN109271492A (zh) | 一种语料正则表达式的自动生成方法及系统 | |
CN103488627A (zh) | 全篇专利文献翻译方法及翻译系统 | |
CN113779972A (zh) | 语音识别纠错方法、系统、装置及存储介质 | |
CN109670190A (zh) | 翻译模型构建方法和装置 | |
CN112445894A (zh) | 基于人工智能的商务智能系统及其分析方法 | |
CN108519963B (zh) | 一种将流程模型自动转换为多语言文本的方法 | |
CN101271448A (zh) | 汉语基本名词短语的识别及其规则的生成方法和装置 | |
CN114265931A (zh) | 基于大数据文本挖掘的消费者政策感知分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101020 |