CN106294507A - 跨语言的观点数据分类方法和装置 - Google Patents

跨语言的观点数据分类方法和装置 Download PDF

Info

Publication number
CN106294507A
CN106294507A CN201510316362.6A CN201510316362A CN106294507A CN 106294507 A CN106294507 A CN 106294507A CN 201510316362 A CN201510316362 A CN 201510316362A CN 106294507 A CN106294507 A CN 106294507A
Authority
CN
China
Prior art keywords
matrix
source
target
data
feature matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510316362.6A
Other languages
English (en)
Other versions
CN106294507B (zh
Inventor
周光有
张小鹏
肖磊
管刚
刘婷婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong Normal University
Tencent Technology Shenzhen Co Ltd
Original Assignee
Huazhong Normal University
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong Normal University, Tencent Technology Shenzhen Co Ltd filed Critical Huazhong Normal University
Priority to CN201510316362.6A priority Critical patent/CN106294507B/zh
Publication of CN106294507A publication Critical patent/CN106294507A/zh
Application granted granted Critical
Publication of CN106294507B publication Critical patent/CN106294507B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种跨语言的观点数据分类方法和装置,属于数据分类领域。方法包括:获取部分平行数据;构造源数据矩阵、源基矩阵和源特征矩阵,确定源语言的第一目标函数;构造目标数据矩阵、目标基矩阵和目标特征矩阵,并确定目标语言的第二目标函数;根据第一目标函数、第二目标函数和预设条件确定总目标函数,预设条件为第一源观点数据对应的第一源特征矩阵与第一目标观点数据对应的第一目标特征矩阵相同;确定总目标函数中各个参数的收敛值,建立分类模型,以对目标语言的观点数据进行分类。本发明提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间和人力成本。

Description

跨语言的观点数据分类方法和装置
技术领域
本发明涉及数据分类领域,特别涉及一种跨语言的观点数据分类方法和装置。
背景技术
随着互联网的发展和普及,越来越多的用户会在互联网上分享观点数据,以表达自己的观点,这些观点可能是正面观点,也可能是负面观点。为了对这些观点数据进行分类,可以人工地对观点数据进行标注,得到每个观点数据的标签,基于观点数据的标签进行训练,得到分类模型,该分类模型即可用于对未知类别的观点数据进行分类。
然而,用户分享的观点数据可能涉及到汉语、英语等多种不同的语言,对不同语言的观点数据进行分类时,如果对每种语言的观点数据分别进行标注,会耗费大量的时间成本和人力成本。为此,现有技术中提出了跨语言的观点数据分类方法。当要对目标语言的观点数据进行分类,但目标语言中的标注数据往往很少时,可以选择一个拥有大量标注数据的源语言,获取源语言与目标语言之间的平行语料库,该平行语料库中包括平行的源语言观点数据和目标语言观点数据,即两种语言的观点数据含义相同,表达的观点也相同,则源语言观点数据的标签适用于与该源语言观点数据平行的目标语言观点数据,可以根据该平行语料库获取目标语言观点数据的标签。之后,基于目标语言观点数据的标签进行训练,即可得到目标语言的分类模型,从而基于该分类模型,对目标语言的观点数据进行分类。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:实际应用时仍需要耗费大量的时间成本和人力成本,才能获得完全平行的源语言观点数据和目标语言观点数据,却很容易获得部分平行的观点数据,该部分平行的观点数据是指一部分相互平行的源语言观点数据和目标语言观点数据,以及一部分不平行的源语言观点数据和目标语言观点数据。因此,需要提出一种跨语言的观点数据分类方法,以基于部分平行的观点数据进行分类。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种跨语言的观点数据分类方法和装置。所述技术方案如下:
第一方面,提供了一种跨语言的观点数据分类方法,所述方法包括:
获取部分平行数据,所述部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,所述第一源观点数据和所述第二源观点数据均为源语言的观点数据,所述第一目标观点数据和所述第二目标观点数据均为目标语言的观点数据,所述第一源观点数据和所述第一目标观点数据相互平行;
根据所述第一源观点数据和所述第二源观点数据,构造源数据矩阵以及由所述源数据矩阵分解得到的源基矩阵和源特征矩阵,并根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数;
根据所述第一目标观点数据和所述第二目标观点数据,构造目标数据矩阵以及由所述目标数据矩阵分解得到的目标基矩阵和目标特征矩阵,并根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数;
根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,所述预设条件为所述源特征矩阵中所述第一源观点数据对应的第一源特征矩阵与所述目标特征矩阵中所述第一目标观点数据对应的第一目标特征矩阵相同;
确定所述总目标函数中各个参数的收敛值;
根据所述总目标函数中各个参数的收敛值以及所述部分平行数据中每个观点数据的标签,建立分类模型,并基于所述分类模型,对所述目标语言的观点数据进行分类。
第二方面,提供了一种跨语言的观点数据分类装置,所述装置包括:
获取模块,用于获取部分平行数据,所述部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,所述第一源观点数据和所述第二源观点数据均为源语言的观点数据,所述第一目标观点数据和所述第二目标观点数据均为目标语言的观点数据,所述第一源观点数据和所述第一目标观点数据相互平行;
构造模块,用于根据所述第一源观点数据和所述第二源观点数据,构造源数据矩阵以及由所述源数据矩阵分解得到的源基矩阵和源特征矩阵;
目标函数确定模块,用于根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数;
所述构造模块,还用于根据所述第一目标观点数据和所述第二目标观点数据,构造目标数据矩阵以及由所述目标数据矩阵分解得到的目标基矩阵和目标特征矩阵;
所述目标函数确定模块,还用于根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数;
所述目标函数确定模块,还用于根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,所述预设条件为所述源特征矩阵中所述第一源观点数据对应的第一源特征矩阵与所述目标特征矩阵中所述第一目标观点数据对应的第一目标特征矩阵相同;
计算模块,用于确定所述总目标函数中各个参数的收敛值;
分类模块,用于根据所述总目标函数中各个参数的收敛值以及所述部分平行数据中每个观点数据的标签,建立分类模型,并基于所述分类模型,对所述目标语言的观点数据进行分类。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供的方法和装置,通过基于相互平行的第一源观点数据和第一目标观点数据以及不平行的第二源观点数据和第二目标观点数据,采用矩阵分解的方式,将源语言的观点数据和目标语言的观点数据映射至同一子空间中,分别构造出两种语言的观点数据在子空间内的基矩阵和特征矩阵,并确定预设条件为相互平行的观点数据在该子空间内的特征矩阵相同。根据构造的矩阵和该预设条件,确定总目标函数,并确定总目标函数中各个参数的收敛值,能够根据各个参数的收敛值以及每个观点数据的标签,建立分类模型,从而基于该分类模型,对该目标语言的观点数据进行分类。本发明实施例提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间成本和人力成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种跨语言的观点数据分类方法的流程图;
图2是本发明实施例提供的一种跨语言的观点数据分类方法的流程图;
图3是本发明实施例提供的EFB任务中目标函数的收敛曲线;
图4是本发明实施例提供的FEB任务中目标函数的收敛曲线;
图5是本发明实施例提供的GEB任务中目标函数的收敛曲线;
图6是本发明实施例提供的JEB任务中目标函数的收敛曲线;
图7是本发明实施例提供的基于不同维度的精确度示意图;
图8是本发明实施例提供的基于不同权衡系数的精确度示意图;
图9是本发明实施例提供的基于不同维度的精确度示意图;
图10是本发明实施例提供的基于不同权衡系数的精确度示意图;
图11是本发明实施例提供的一种跨语言的观点数据分类装置结构示意图;
图12是本发明实施例提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明实施例提供的一种跨语言的观点数据分类方法的流程图,参见图1,该方法包括:
101、获取部分平行数据,该部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,该第一源观点数据和该第二源观点数据均为源语言的观点数据,该第一目标观点数据和该第二目标观点数据均为目标语言的观点数据,该第一源观点数据和该第一目标观点数据相互平行。
102、根据该第一源观点数据和该第二源观点数据,构造源数据矩阵以及由该源数据矩阵分解得到的源基矩阵和源特征矩阵,并根据该源数据矩阵、该源基矩阵和该源特征矩阵,确定该源语言的第一目标函数。
103、根据该第一目标观点数据和该第二目标观点数据,构造目标数据矩阵以及由该目标数据矩阵分解得到的目标基矩阵和目标特征矩阵,并根据该目标数据矩阵、该目标基矩阵和该目标特征矩阵,确定该目标语言的第二目标函数。
104、根据该第一目标函数、该第二目标函数和预设条件,确定总目标函数,该预设条件为该源特征矩阵中与该第一源观点数据对应的第一源特征矩阵与该目标特征矩阵中与该第一目标观点数据对应的第一目标特征矩阵相同。
105、确定该总目标函数中各个参数的收敛值。
106、根据该总目标函数中各个参数的收敛值以及该部分平行数据中每个观点数据的标签,建立分类模型,并基于该分类模型,对该目标语言的观点数据进行分类。
本发明实施例提供的方法,通过基于相互平行的第一源观点数据和第一目标观点数据以及不平行的第二源观点数据和第二目标观点数据,采用矩阵分解的方式,将源语言的观点数据和目标语言的观点数据映射至同一子空间中,分别构造出两种语言的观点数据在子空间内的基矩阵和特征矩阵,并确定预设条件为相互平行的观点数据在该子空间内的特征矩阵相同。根据构造的矩阵和该预设条件,确定总目标函数,并确定总目标函数中各个参数的收敛值,能够根据各个参数的收敛值以及每个观点数据的标签,建立分类模型,从而基于该分类模型,对该目标语言的观点数据进行分类。本发明实施例提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间成本和人力成本。
可选地,该根据该源数据矩阵、该源基矩阵和该源特征矩阵,确定该源语言的第一目标函数,包括:
根据该源数据矩阵、该源基矩阵和该源特征矩阵,应用以下公式,确定该源语言的第一目标函数:
O s = | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s ) ;
其中,Οs表示该第一目标函数,表示该源数据矩阵,Us表示该源基矩阵,表示该源特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,该根据该目标数据矩阵、该目标基矩阵和该目标特征矩阵,确定该目标语言的第二目标函数,包括:
根据该目标数据矩阵、该目标基矩阵和该目标特征矩阵,应用以下公式,确定该目标语言的第二目标函数:
O t = | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示该第二目标函数,表示该目标数据矩阵,Ut表示该目标基矩阵,表示该目标特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,该根据该第一目标函数、该第二目标函数和预设条件,确定总目标函数,包括:
获取与该第一源观点数据对应的第一源数据矩阵以及与该第二源观点数据对应的第二源数据矩阵;
根据该第一源观点数据和该第二源观点数据的数目,对该源特征矩阵进行划分,得到该第一源观点数据对应的第一源特征矩阵和该第二源观点数据对应的第二源特征矩阵;
获取与该第一目标观点数据对应的第一目标数据矩阵以及与该第二目标观点数据对应的第二目标数据矩阵;
根据该第一目标观点数据和该第二目标观点数据的数目,对该目标特征矩阵进行划分,得到该第一目标观点数据对应的第一目标特征矩阵和该第二目标观点数据对应的第二目标特征矩阵;
根据该第一源数据矩阵、该第二源数据矩阵、该源基矩阵、该第一源特征矩阵、该第二源特征矩阵、该第一目标数据矩阵、该第二目标数据矩阵、该目标基矩阵、该第一目标特征矩阵、该第二目标特征矩阵以及该预设条件,确定该总目标函数。
可选地,该根据该第一源数据矩阵、该第二源数据矩阵、该源基矩阵、该第一源特征矩阵、该第二源特征矩阵、该第一目标数据矩阵、该第二目标数据矩阵、该目标基矩阵、该第一目标特征矩阵、该第二目标特征矩阵,确定该总目标函数,包括:
将该第一源特征矩阵和该第一目标特征矩阵作为第一特征矩阵;
应用以下公式,确定该总目标函数:
O = ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示该总目标函数,表示该第一特征矩阵;λ表示权衡系数,||·||F表示费罗贝尼乌斯范数,||·||1表示矩阵的第一范数;
表示该第一源数据矩阵,Xs表示该第二源数据矩阵,Vs表示该第二源特征矩阵,Us表示该源基矩阵;
表示该第一目标数据矩阵,Xt表示该第二目标数据矩阵,Vt表示该第二目标特征矩阵,Ut表示该目标基矩阵。
可选地,将该第一源特征矩阵和该第一目标特征矩阵作为第一特征矩阵,该总目标函数的参数包括:该第一特征矩阵、该第二源特征矩阵、该第二目标特征矩阵、该源基矩阵和该目标基矩阵;
该确定该总目标函数中各个参数的收敛值,包括:
对该源基矩阵和该目标基矩阵进行初始化,得到该源基矩阵的初始值和该目标基矩阵的初始值;
基于该源基矩阵的初始值和该目标基矩阵的初始值,对该第一特征矩阵进行迭代计算,得到该第一特征矩阵的当前迭代值,直至该总目标函数基于该第一特征矩阵收敛,将该第一特征矩阵的当前迭代值作为该第一特征矩阵的收敛值;
基于该源基矩阵的初始值和该目标基矩阵的初始值,对该第二源特征矩阵进行迭代计算,得到该第二源特征矩阵的当前迭代值,直至该总目标函数基于该第二源特征矩阵收敛,将该第二源特征矩阵的当前迭代值作为该第二源特征矩阵的收敛值;
基于该源基矩阵的初始值和该目标基矩阵的初始值,对该第二目标特征矩阵进行迭代计算,得到该第二目标特征矩阵的当前迭代值,直至该总目标函数基于该第二目标特征矩阵收敛,将该第二目标特征矩阵的当前迭代值作为该第二目标特征矩阵的收敛值;
基于该第一特征矩阵的收敛值和该第二源特征矩阵的收敛值,对该源基矩阵进行迭代计算,得到该源基矩阵的当前迭代值,直至该总目标函数基于该源基矩阵收敛,将该源基矩阵的当前迭代值作为该源基矩阵的收敛值;
基于该第一特征矩阵的收敛值和该第二目标特征矩阵的收敛值,对该目标基矩阵进行迭代计算,得到该目标基矩阵的当前迭代值,直至该总目标函数基于该目标基矩阵收敛,将该目标基矩阵的当前迭代值作为该目标基矩阵的收敛值。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
图2是本发明实施例提供的一种跨语言的观点数据分类方法的流程图。该发明实施例的执行主体为分类装置,参见图2,该方法包括:
201、分类装置获取部分平行数据。
其中,该分类装置用于对观点数据进行分类,可以将观点数据分为正面观点数据和负面观点数据,该分类装置可以为计算机或者服务器等设备,本发明实施例对此不做限定。
本发明实施例中,该部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,该第一源观点数据和该第二源观点数据均为源语言的观点数据,该第一目标观点数据和该第二目标观点数据均为目标语言的观点数据。该第一源观点数据和该第一目标观点数据相互平行,而该第二源观点数据和该第二目标观点数据不平行。
其中,该源语言与该目标语言不同,该源语言可以为英语、汉语、日语等语言,该目标语言也可以为汉语、英语、德语等语言,该源语言可以根据每种语言中已标注的观点数据的数目确定,该目标语言可以根据分类需求确定,本发明实施例对该源语言和该目标语言不做限定。
对于该部分平行数据中的每个观点数据来说,该观点数据可以为不同类型的数据,例如该观点数据可以为一个文档或者为一个语句等,本发明实施例对该观点数据的类型不做限定。该观点数据中可以包括多个子数据,该观点数据的类型不同时,该观点数据中的子数据也不同。例如,当该观点数据为一个文档时,该观点数据中的子数据可以为文档中的语句,当该观点数据为一个语句时,该观点数据中的子数据可以为语句中的词汇,本发明实施例对观点数据中的子数据不做限定。
202、分类装置根据该第一源观点数据和该第二源观点数据,构造源数据矩阵以及由该源数据矩阵分解得到的源基矩阵和源特征矩阵,根据该第一目标观点数据和该第二目标观点数据,构造目标数据矩阵以及由该目标数据矩阵分解得到的目标基矩阵和目标特征矩阵。
对于每个观点数据来说,该分类装置可以获取该观点数据对应的向量,该向量可以由该观点数据中每个子数据的权重组成。其中,每个子数据的权重用于表示该子数据对该观点数据的重要程度,可以根据子数据在该观点数据中出现的频率确定,或者,根据子数据在该观点数据中出现的频率以及该子数据的IDF(Inverse Document Frequency,逆向文件频率)确定,如根据子数据的TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆向文件频率)确定权重,本发明实施例对此不做限定。
该分类装置可以获取该第一源观点数据和该第二源观点数据对应的向量,将该第一源观点数据对应的向量与该第二源观点数据对应的向量进行组合,构造出源数据矩阵,使得该源数据矩阵中包括每个第一源观点数据对应的向量和每个第二源观点数据对应的向量。该分类装置还可以获取该第一目标观点数据和该第二目标观点数据对应的向量,将该第一目标观点数据对应的向量与该第二目标观点数据对应的向量进行组合,构造出目标数据矩阵,使得该目标数据矩阵中包括每个第一目标观点数据对应的向量和每个第二目标观点数据对应的向量。
具体地,设定该分类装置获取到的部分平行数据为X={X(s,t),Xs,Xt},其中,X(s,t)表示该第一源观点数据对应的向量和该第一目标观点数据对应的向量所组成的平行矩阵, X ( s , t ) = [ ( x 1 s , x 1 t ) ; ( x 2 s , x 2 t ) ; . . . ; ( x c s , x c t ) ] . 在该平行矩阵中,该第一源观点数据和该第一目标观点数据相互平行,则该第一源观点数据对应的向量与该第一目标观点数据对应的向量相互对应。Xs表示该第二源观点数据所组成的第二源数据矩阵,Xt表示该第二目标观点数据所组成的第二目标源数据矩阵,c表示该第一源观点数据的数目及该第一目标观点数据的数目,m表示该第二源观点数据的数目,n表示该第二目标观点数据的数目。
根据语言的不同,对该平行矩阵进行划分,即另 X ( x , t ) = [ X ^ c s , X ^ c t ] , X ^ c s = [ x 1 s ; x 2 s ; . . . ; x c s ] , X ^ c t = [ x 1 t ; x 2 t ; . . . ; x c t ] , 其中,表示根据该第一源观点数据组成的第一源数据矩阵,表示根据该第一目标观点数据组成的第一目标数据矩阵。则该分类装置根据该第一源数据矩阵和该第二源数据矩阵Xs,可以构造源数据矩阵并根据该第一目标数据矩阵和该第二目标数据矩阵Xt,可以构造目标数据矩阵则该源数据矩阵中包括部分平行数据中所有源语言的观点数据,该目标数据矩阵中包括该部分平行数据中所有目标语言的观点数据。
假设每个源观点数据中包括d1个子数据,则第一源数据矩阵为c×d1阶矩阵,即第二源数据矩阵Xs为m×d1阶矩阵,即源数据矩阵阶矩阵,即假设每个目标观点数据中包括d2个子数据,则第一目标数据矩阵为c×d2阶矩阵,即第二目标数据矩阵Xt为n×d2阶矩阵,即目标数据矩阵阶矩阵,即 X ‾ t ∈ R ( c + n ) × d 2 .
获取到该源数据矩阵和该目标数据矩阵后,该分类装置可以对该源数据矩阵进行分解,得到源基矩阵和源特征矩阵,并对该目标数据矩阵进行分解,得到目标基矩阵和目标特征矩阵。
在跨语言的观点数据分类过程中所涉及的各个矩阵均为非负矩阵,则该分类装置进行矩阵分解时,可以采用非负矩阵分解法进行。其中,非负矩阵分解法为在矩阵中所有子数据均为非负数约束条件之下的矩阵分解方法,非负矩阵分解法的基本思想可以简单描述为:对于任意给定的一个非负矩阵A,总能找到一个非负矩阵U和一个非负矩阵V,使得非负的矩阵A可以分解成非负矩阵U和V的乘积。非负矩阵分解法通过寻找低秩,将矩阵分解成若干个非负的矩阵,可以应用于多种领域中,如采用非负矩阵分解数字图像中的像素、文本分析中的词汇统计及股票价格等等。通过采用非负矩阵分解法进行文本、图像大规模数据的分析,较传统的处理算法具有更加准确的语义信息。
203、分类装置根据该源数据矩阵、该源基矩阵和该源特征矩阵,确定该源语言的第一目标函数,并根据该目标数据矩阵、该目标基矩阵和该目标特征矩阵,确定该目标语言的第二目标函数。
对于构造出的源数据矩阵设定由源数据矩阵分解得到的源基矩阵为Us,源特征矩阵为其中,设定源基矩阵Us为k×d1阶矩阵,即则源特征矩阵阶矩阵,即也即是将源数据矩阵映射至k维的子空间中,用于表示源语言的观点数据在该子空间内的特征。
该分类装置的优化目标为为了找出符合该优化目标的和Us,该分类装置可以根据源数据矩阵源基矩阵Us和源特征矩阵确定源语言的第一目标函数为:
O s = | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s ) ;
其中,Οs表示该第一目标函数,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数,
通过计算源数据矩阵与源基矩阵和源特征矩阵的乘积之间的欧式距离,确定该第一目标函数,以便对该第一目标函数进行迭代优化后,可以找出第一目标函数的最小值,也即是找出乘积与源数据矩阵之间的欧式距离最小的源基矩阵Us和源特征矩阵减小了重构误差。
对于构造出的目标数据矩阵设定由目标数据矩阵分解得到的目标基矩阵为Ut,目标特征矩阵为其中,设定目标基矩阵Ut为k×d2阶矩阵,即则目标特征矩阵为(c+n)×k阶矩阵,即也即是将目标数据矩阵也映射至该k维的子空间中,用于表示目标语言的观点数据在该子空间内的特征。
该分类装置的优化目标为为了找出符合该优化目标的和Ut,该分类装置可以根据目标数据矩阵目标基矩阵Ut和目标特征矩阵确定目标语言的第二目标函数为:
O t = | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示该第二目标函数,λ表示权衡系数,表示正则项, U ‾ t ≥ 0 , U t ≥ 0 .
通过计算目标数据矩阵与目标基矩阵和目标特征矩阵的乘积之间的欧式距离,确定该第二目标函数,以便对该第二目标函数进行迭代优化后,可以找出第二目标函数的最小值,也即是找出乘积与目标数据矩阵之间的欧式距离最小的目标基矩阵Ut和目标特征矩阵减小了重构误差。
需要说明的是,本发明实施例以先构造出两种语言所对应的基矩阵和特征矩阵后,再确定两种语言对应的目标函数为例进行说明,而在实际应用时,该分类装置可以先构造源基矩阵和源特征矩阵,确定源语言的第一目标函数,再构造目标基矩阵和目标特征矩阵,确定目标语言的第二目标函数,或者,先构造目标基矩阵和目标特征矩阵,确定目标语言的第二目标函数,再构造源基矩阵和源特征矩阵,确定源语言的第一目标函数,本发明实施例对构造两种语言的基矩阵和源特征矩阵以及确定两种语言的目标函数的先后顺序不做限定。
204、分类装置根据该第一目标函数、该第二目标函数和预设条件,确定总目标函数。
上述步骤203中已得到源语言的第一目标函数和目标语言的第二目标函数,而对根据第一目标函数和第二目标函数得到的总目标函数进行最优化处理可以提高对目标语言的观点数据分类的精度及速度。因此,为了快速准确地对目标语言的观点数据进行分类,在对目标语言的观点数据分类之前,需要先根据第一目标函数和第二目标函数确定一个总目标函数。
本发明实施例中,通过矩阵分解的方式,将源语言的观点数据和目标语言的观点数据映射至同一子空间中,该子空间与观点数据的语言无关,则该源特征矩阵表示源语言的观点数据在该子空间内的特征,该目标特征矩阵表示目标语言的观点数据在该子空间内的特征。由于该第一源观点数据与该第一目标观点数据相互平行,则该源特征矩阵中该第一源观点数据对应的第一源特征矩阵与该目标特征矩阵中该第一目标观点数据对应的第一目标特征矩阵应当相同。因此,该分类装置可以将第一源特征矩阵与第一目标特征矩阵相同作为预设条件,根据该第一目标函数、该第二目标函数和该预设条件,确定总目标函数。
具体地,该分类装置可以获取与该第一源观点数据对应的第一源数据矩阵以及与该第二源观点数据对应的第二源数据矩阵,并根据该第一源观点数据和该第二源观点数据的数目,对该源特征矩阵进行划分,得到该第一源观点数据对应的第一源特征矩阵和该第二源观点数据对应的第二源特征矩阵。该分类装置还获取与该第一目标观点数据对应的第一目标数据矩阵以及与该第二目标观点数据对应的第二目标数据矩阵,并根据该第一目标观点数据和该第二目标观点数据的数目,对该目标特征矩阵进行划分,得到该第一目标观点数据对应的第一目标特征矩阵和该第二目标观点数据对应的第二目标特征矩阵。之后,该分类装置即可根据该第一源数据矩阵、该第二源数据矩阵、该源基矩阵、该第一源特征矩阵、该第二源特征矩阵、该第一目标数据矩阵、该第二目标数据矩阵、该目标基矩阵、该第一目标特征矩阵、该第二目标特征矩阵以及该预设条件,确定该总目标函数。
例如,该第一源观点数据和该第一目标观点数据的数目为c,则根据该数目对源特征矩阵和目标特征矩阵进行划分,另 即可表示该第一源特征矩阵,即可表示该第一目标特征矩阵,则将该第一源特征矩阵和该第一目标特征矩阵作为第一特征矩阵设定该分类装置可以对该第一目标函数和该第二目标函数进行加法计算,并以第一源数据矩阵和第二源数据矩阵Xs替换源数据矩阵以第一特征矩阵和第二源特征矩阵Vs替换源特征矩阵以第一目标数据矩阵和第二目标数据矩阵Xt替换目标数据矩阵以第一特征矩阵和第二目标特征矩阵Vt替换目标特征矩阵得到的总目标函数为:
O = ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示该总目标函数,||·||1表示矩阵的第一范数, U s ≥ 0 , U t ≥ 0 , V ^ c ≥ 0 , V s ≥ 0 , V t ≥ 0 .
205、分类装置确定该总目标函数中各个参数的收敛值。
该分类装置确定该总目标函数后,需要对该总目标函数进行迭代优化处理,确定该总目标函数中各个参数的收敛值。
该总目标函数的参数包括:该第一特征矩阵该第二源特征矩阵Vs、该第二目标特征矩阵Vt、该源基矩阵Us和该目标基矩阵Ut,则当基矩阵Us和Ut固定时,以特征矩阵Vs和Vt为自变量的目标函数为凸函数,但以基矩阵Us和Ut及特征矩阵Vs和Vt为自变量时,目标函数不是凸函数。
本发明实施例中,该步骤205可以包括以下步骤(1)至(6):
(1)对该源基矩阵Us和该目标基矩阵Ut进行初始化,得到该源基矩阵Us的初始值U0 s和该目标基矩阵Ut的初始值U0 t
实际应用时,初始化过程会对该目标函数的整个迭代优化的效率造成影响,为了提高迭代优化效率,该分类装置对源基矩阵Us和目标基矩阵Ut进行初始化的迭代优化过程,而不再随机地为源基矩阵Us和目标基矩阵Ut选取初始值。
具体地,该分类装置将该总目标函数中的特征矩阵Vs和Vt固定,确定基于源基矩阵Us、该目标基矩阵Ut和该第一特征矩阵的目标函数为:
O init = | | X ^ c s - V ^ c U s | | F 2 + | | X ^ c t - V ^ c U t | | F 2 + λ | | V ^ c | | 1 ; U s ≥ 0 , U t ≥ 0 , V ^ c ≥ 0 , λ=d1/k。
该分类装置根据该源基矩阵的维度和该目标基矩阵的维度,随机地为源基矩阵和目标基矩阵分别选取一个初始值,代入上述目标函数中,基于该目标函数,分别对源基矩阵Us和目标基矩阵Ut进行迭代优化,得到该源基矩阵Us的初始值U0 s和该目标基矩阵Ut的初始值U0 t
以将目标基矩阵Ut、该第一特征矩阵固定,对源基矩阵Us进行迭代优化为例,基于源基矩阵Us的目标函数为:
O init ( U s ) = | | X ^ c s - V ^ c U s | | F 2 ; 则可以确定,
O init ( U s ) = | | X ^ c s - V ^ c U s | | F 2 = Tr ( ( X ^ c s - V ^ c U s ) ( X ^ c s - V ^ c U s ) T ) = Tr ( X ^ c s ( X ^ c s ) T ) - 2 Tr ( X ^ c s ( U s ) T ( V ^ c ) T ) + Tr ( V ^ c U s ( U s ) T ( V ^ c ) T ) ;
其中,Tr(·)表示矩阵的迹,(·)T表示矩阵的转置。
由于该第一特征矩阵固定,也固定,则对目标函数进行求导运算,可以得到:则迭代公式为:Us(t+1)=max(0,U(t)-η▽UO),η表示迭代步长,t表示当前的迭代,t+1表示下一次迭代。
确定源基矩阵Us的初始值后,即可基于上述迭代公式,计算源基矩阵Us的当前迭代值,直至该目标函数基于源基矩阵Us收敛时,将源基矩阵Us的当前迭代值作为源基矩阵Us的初始值U0 s
将源基矩阵Us和第一特征矩阵固定,对目标基矩阵Ut的初始值进行迭代优化的过程与此类似,在此不再赘述。
(2)基于该源基矩阵的初始值U0 s和该目标基矩阵的初始值U0 t,对该第一特征矩阵进行迭代计算,得到该第一特征矩阵的当前迭代值,直至该总目标函数基于该第一特征矩阵收敛,将该第一特征矩阵的当前迭代值作为该第一特征矩阵的收敛值。
具体地,该分类装置将源基矩阵Us、该目标基矩阵Ut固定,确定基于第一特征矩阵的目标函数为: O init ( V ^ c ) = | | X ^ c s - V ^ c U s | | F 2 + | | X ^ c t - V ^ c U t | | F 2 + λ | | V ^ c | | 1 ; λ = ( d 1 + d 2 ) / k , 则可以确定, O ′ ( V ^ c ) = | | X ^ c s 0 K × n - V ^ c U s λ I K | | F 2 + | | X ^ c t 0 K × n - V ^ c U t λ I K | | F 2 ; 其中,IK表示一个K×K阶的单位矩阵,0K×n是一个K×n阶的零矩阵。
X ^ c s 0 K × n = D s ′ , U s λ I K = U s ′ , X ^ c t 0 K × 0 = D t ′ , U t λ I K = U t ′ , 则该目标函数为: O ′ ( V ^ c ) = | | D s ′ - V ^ c U s ′ | | F 2 + | | D t ′ - V ^ c U t ′ | | F 2 , 对该目标函数进行求导运算,可以得到 ▿ V s O ′ = - 2 U s ′ T D s ′ + 2 U s ′ T U s ′ V ^ c + - 2 U t ′ T D t ′ + 2 U t ′ T U t ′ V ^ c , 则迭代公式为: 表示迭代步长。
(3)基于该源基矩阵的初始值U0 s和该目标基矩阵的初始值U0 t,对该第二源特征矩阵Vs进行迭代计算,得到该第二源特征矩阵Vs的当前迭代值,直至该总目标函数基于第二源特征矩阵Vs收敛,将该第二源特征矩阵Vs的当前迭代值作为该第二源特征矩阵Vs的收敛值。
具体地,该分类装置将源基矩阵Us、该目标基矩阵Ut、该第一特征矩阵固定,确定基于第二源特征矩阵Vs的目标函数为:
O ( V s ) = | | X s - V s U s | | F 2 + λ | | V s | | 1 , λ = d 1 / k ;
则确定目标函数可以为: O ′ ( V s ) = | | X s 0 K × n - V s U s λ I K | | F 2 ;
其中,IK表示一个K×K阶的单位矩阵,0K×n是一个K×n阶的零矩阵。
X s 0 K × n = D ′ , U s λ I K = U ′ , 则该目标函数为: O ′ ( V s ) = | | D ′ - V s U ′ | | F 2 , 对该目标函数进行求导运算,可以得到:则迭代公式为: 表示迭代步长。
确定第二源特征矩阵Vs的初始值后,即可基于上述迭代公式,计算第二源特征矩阵Vs的当前迭代值,直至该目标函数基于第二源特征矩阵Vs收敛时,将第二源特征矩阵Vs的当前迭代值作为第二源特征矩阵Vs的收敛值。
(4)基于该源基矩阵的初始值U0 s和该目标基矩阵的初始值U0 t,对该第二目标特征矩阵Vt进行迭代计算,得到该第二目标特征矩阵Vt的当前迭代值,直至该总目标函数基于第二目标特征矩阵Vt收敛,将该第二目标特征矩阵Vt的当前迭代值作为该第二目标特征矩阵Vt的收敛值。
具体地,该分类装置将源基矩阵Us、该目标基矩阵Ut、该第一特征矩阵固定,确定基于第二目标特征矩阵Vt的目标函数为:
O ( V t ) = | | X t - V t U t | | F 2 + λ | | V t | | 1 , λ = d 2 / k ;
采用与上述步骤(3)类似的步骤,可以得到第二目标特征矩阵Vt的迭代公式以获取第二目标特征矩阵Vt的收敛值,具体过程在此不再赘述。
(5)基于该第一特征矩阵的收敛值和该第二源特征矩阵Vs的收敛值,对该源基矩阵Us进行迭代计算,得到该源基矩阵Us的当前迭代值,直至该总目标函数基于源基矩阵Us收敛,将该源基矩阵Us的当前迭代值作为该源基矩阵Us的收敛值。
(6)基于该第一特征矩阵的收敛值和该第二目标特征矩阵Vt的收敛值,对该目标基矩阵Ut进行迭代计算,得到该目标基矩阵Ut的当前迭代值,直至该总目标函数基于目标基矩阵Ut收敛,将该目标基矩阵Ut的当前迭代值作为该目标基矩阵Ut的收敛值。
为了提高准确率,该分类装置在对第二源特征矩阵Vs和该第二目标特征矩阵Vt进行迭代优化之后,将第二源特征矩阵Vs和该第二目标特征矩阵Vt固定,继续对该源基矩阵Us和该目标基矩阵Ut进行迭代优化,直至目标函数收敛时,获取源基矩阵Us和该目标基矩阵Ut的收敛值。
其中,将第二源特征矩阵Vs和该第二目标特征矩阵Vt固定,确定基于源基矩阵Us的目标函数为:基于目标基矩阵Ut的目标函数为:其余步骤与上述步骤(1)类似,在此不再赘述。
该分类装置可以采用GCD(Greedy Coordinate Descent,贪婪坐标下降)算法,对该总目标函数进行优化,其迭代速度比循环下降算法的速度快10倍。当然,该分类装置还可以采用其他算法进行优化,本发明实施例对此不做限定。
进一步地,为了确保能够根据总目标函数得到各个参数的收敛值,本实施例提供的方法可以引入一个引理:在进行最小二乘非负矩阵分解时,采用GCD算法生成一个序列对{Uj,Vj},序列对中的每个极限点趋向于一个固定值。根据上述引理,可以确定目标函数的值可以收敛至局部最小值,也即是能够保证在优化过程中该总目标函数单调不增,在对总目标函数进行迭代优化时可以得到各个参数的收敛值。
206、分类装置根据总目标函数中各个参数的收敛值以及该部分平行数据中每个观点数据的标签,建立分类模型,并基于该分类模型,对该目标语言的观点数据进行分类。
该分类装置获取该部分平行数据时,可以获取每个观点数据的标签,该标签用于表示对应观点数据所属的类别。且该分类装置获取到该总目标函数中各个参数的收敛值后,即可确定该源特征矩阵和该目标特征矩阵的具体值,由于该源特征矩阵中包括每个源语言的观点数据在该子空间内的特征向量,该目标特征矩阵中包括每个目标语言的观点数据在该子空间内的特征向量,则该分类装置可以对该源特征矩阵和该目标特征矩阵进行划分,分别得到每个源语言的观点数据在该子空间内的特征向量和每个目标语言的观点数据在该子空间内的特征向量。
之后,该分类装置即可基于每个观点数据在该子空间内的特征向量以及每个观点数据的标签进行训练,建立分类模型。后续过程中,当该分类装置获取到待分类的目标语言的观点数据时,将该观点数据输入该分类模型,基于该分类模型,计算该观点数据在该子空间内的特征向量,从而对该观点数据进行分类,确定该观点数据是正向观点数据还是负向观点数据。
其中,该分类装置可以基于每个观点数据在该子空间内的特征向量以及每个观点数据的标签,采用支持向量机或者其他算法进行训练,建立分类模型,本发明实施例对该分类装置采用的训练方法不做限定。
现有技术中,在部分平行的观点数据中,源语言的观点数据与目标语言的观点数据位于不同的空间内,无法将源语言的观点数据的标签直接应用于目标语言的观点数据,无法实现跨语言观点分类。而本发明实施例中,将部分平行的观点数据中的源语言观点数据与目标语言观点数据映射至同一子空间内,将该子空间作为源语言观点数据与目标语言观点数据之间的桥梁,去除了语言对观点数据的影响,减小了源语言观点数据与目标语言观点数据之间的差距,能够将源语言的观点数据的标签应用于目标语言的观点数据,能够基于源语言的观点数据的标签以及目标语言的观点数据的标签进行训练,得到分类模型,实现了跨语言的观点数据分类。
本发明实施例提供的方法,通过基于相互平行的第一源观点数据和第一目标观点数据以及不平行的第二源观点数据和第二目标观点数据,采用非负矩阵分解的方式,将源语言的观点数据和目标语言的观点数据映射至同一子空间中,分别构造出两种语言的观点数据在子空间内的基矩阵和特征矩阵,并确定预设条件为相互平行的观点数据在该子空间内的特征矩阵相同。根据构造的矩阵和该预设条件,确定总目标函数,并确定总目标函数中各个参数的收敛值,能够根据各个参数的收敛值以及每个观点数据的标签,建立分类模型,从而基于该分类模型,对该目标语言的观点数据进行分类。本发明实施例提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间成本和人力成本,且将该子空间作为源语言观点数据与目标语言观点数据之间的桥梁,去除了语言对观点数据的影响,减小了源语言观点数据与目标语言观点数据之间的差距,能够将源语言的观点数据的标签应用于目标语言的观点数据,能够基于源语言的观点数据的标签以及目标语言的观点数据的标签进行训练,得到分类模型,实现了跨语言的观点数据分类,提高了分类精确度。
本发明实施例基于现有技术中的跨语言观点分类方法以及本发明实施例提供的跨语言观点分类方法,对亚马逊产品的评论进行了观点分类实验。以下将对分类实验进行介绍:
(1)实验数据:
实验所选用的亚马逊的产品涉及三种类型,包括:B(Books,书籍)、D(DVD,光碟)和M(Music,音乐)。这些产品的评论涉及以下四种语言:E(English,英语)、F(French,法语)、G(German,德语)和J(Japanese,日语)。
对于每种类型的产品,各选取了2000个正向英语评论和2000个负向英语评论,对于其他三种语言,还分别选取了1000个正向评论和1000个负向评论。另外,还选取了2000个未标注的英语评论,以及分别与该2000个未标注的英语评论相互平行的2000个法语评论、2000个德语评论和2000个日语评论。
基于上述三种产品类型和四种语言,共设置了如下18个分类任务:EFB、EFD、EFM、EGB、EGD、EGM、EJB、EJD、EJM、FEB、FEM、GEB、GED、GEM、JEB、JED、JEM。其中,每个任务的第一个字母表示源语言,第二个字母表示目标语言、第三个字母表示产品类型。例如,EFB表示将英语作为源语言,将法语作为目标语言,将书籍的英语评论作为源语言的观点数据,将书籍的法语评论作为目标语言的观点数据的任务。
(2)现有技术算法介绍:
在进行实验时,采用了现有技术中的如下算法:TB(Target Baseline,目标基线系统)、CL-LSA(Cross-Lingual Latent Semantic Analysis,跨语言潜在语义分析)、CL-SCL(Cross-Lingual Structural Corresponding Learning,跨语言结构化等价学习)、CL-MT(Cross-Lingual Machine Translation,跨语言机器翻译)、CL-OPCA(Cross-Lingual Oriented Principle Component Analysis,跨语言面向主成分分析)、CL-TS(Cross-Lingual Two Stage,跨语言两阶段方法),以及本发明实施例提供的方法,分别训练出分类模型,以进行分类。
为了便于对比,首先对现有技术中的几种算法进行如下说明:
TB算法是一种目标词袋的基准方法,能够基于目标语言中标注的训练数据,训练出监督的单语分类器,在训练过程中不会使用未标注的平行数据。
CL-LSA算法是一种跨语言学习方法,可以通过一个双语词典,将每个文档从一种语言翻译为另一种语言,以产生足够的特征。之后,对扩展的文档-词汇矩阵应用LSA(Latent Semantic Analysis,潜在语义分析)算法。
CL-SCL算法是一种跨语言的SCL(Structural Correspondence Learning,结构化等价学习)方法,首先会选择一些枢纽特征,然后根据一个双语字典,自动地减小跨语言的对应数据。
CL-MT算法是一种基于机器翻译的方法,首先利用谷歌翻译工具将目标语言的文档翻译为源语言,然后基于源语言中已标注的训练数据,训练一个双语分类器。
CL-OPCA算法是一种跨语言的OPCA(Oriented Principal ComponentAnalysis,面向主成分分析)方法,首先应用OPCA方法,对两种语言的所有数据学习跨语言特征,之后在产生的特征空间中,基于两种语言中标注的数据训练一个单语分类器。
CL-TS算法是跨语言观点分类中最先进的方法,将构建跨语言特征作为一个构建矩阵的问题,通过使用未标记的平行双语文档,在统一的词汇集空间内,推断出级联的文档-词汇矩阵中不可观测的特征值。
(3)参数选择:
对于CL-LSA、CL-OPCA以及CL-TS算法,选用了相同的参数值k=50,对于CL-SCL算法,枢纽特征的数目设置为450,用于选择枢纽特征的阈值设置为30,奇异值分解后减小的维度为100。通过选用上述参数值,使得在相同的基准上,每个算法均能够实现较为优越的性能。
对于本发明实施例提供的方法,从数值集合{10,20,50,100,150,250,300}中选取子空间维度k的值,从数值集合{10-5,10-4,10-3,10-2,10-1}中选取权衡系数λ的值。基于随机选择的100个已标注的目标训练数据,3次应用本发明实施例提供的方法,最后确定维度k的值为100,权衡系数λ的值为10-2
(4)实验结果:
对于18个任务中的每个任务,选取了所有的源语言评论(包括2000个平行评论),以及100个已标注目标语言评论,训练分类模型,然后将剩余的评论作为测试数据,进行观点分类实验。每种算法运行10次,从而计算出每种算法的平均精确度。每种算法的平均精确度可以如下表1所示。
表1
任务 TB CL-LSA CL-SCL CL-MT CL-OPCA CL-TS 本发明
EFB 66.89±0.87 79.38±0.25 79.86±0.22 78.01±0.45 76.47±0.35 81.83±0.25 82.61±0.25
EFD 67.42±0.91 77.69±0.54 78.80±0.25 77.75±0.68 70.36±0.43 81.92±0.35 82.70±0.45
EFM 67.55±0.50 75.26±0.43 75.95±0.31 75.86±0.51 73.43±0.37 79.06±0.28 80.19±0.40
EGB 67.31±0.72 77.60±0.37 77.77±0.28 77.02±0.60 74.65±0.48 79.30±0.34 79.91±0.47
EGD 66.54±0.73 79.16±0.26 79.93±0.23 79.75±0.58 74.47±0.56 81.27±0.26 81.86±0.31
EGM 67.61±0.46 73.67±0.52 73.95±0.30 73.69±0.55 74.38±0.61 79.26±0.33 79.59±0.42
EJB 62.91±0.62 72.55±0.41 72.91±0.25 72.20±0.80 71.17±0.50 72.40±0.48 73.45±0.27
EJD 65.33±0.58 72.51±0.32 72.82±0.28 72.68±0.56 71.70±0.45 76.51±0.37 77.06±0.32
EJM 67.28±0.67 73.40±0.47 73.75±0.35 73.33±0.65 74.82±0.64 76.17±0.43 76.83±0.52
FEB 66.77±0.51 76.61±0.40 77.26±0.22 77.43±0.55 74.29±0.52 79.29±0.30 80.48±0.33
FED 65.98±0.57 76.39±0.34 76.57±0.20 76.80±0.52 72.30±0.57 77.88±0.34 78.76±0.38
FEM 65.92±0.55 76.24±0.35 76.76±0.25 76.19±0.48 73.41±0.55 78.31±0.41 79.18±0.33
GEB 67.05±0.68 77.43±0.26 77.85±0.27 77.50±0.66 74.66±0.42 78.45±0.29 78.61±0.34
GED 66.30±0.60 77.55±0.30 77.83±0.33 77.52±0.54 74.68±0.54 79.22±0.28 80.27±0.35
GEM 66.55±0.46 77.03±0.42 77.37±0.34 77.63±0.51 74.07±0.46 78.90±0.37 79.80±0.26
JEB 66.72±0.63 74.49±0.37 75.25±0.30 74.41±0.47 73.38±0.45 77.11±0.30 77.97±0.35
JED 66.32±0.49 75.17±0.24 75.34±0.27 75.15±0.49 75.37±0.48 78.95±0.46 80.63±0.38
JEM 66.48±0.55 72.29±0.45 73.21±0.33 73.16±0.50 72.55±0.61 77.13±0.51 77.78±0.37
参见表1,本发明实施例提供的跨语言观点分类方法要优于现有技术中的其他算法。其中,所有算法中TB算法的平均精确度最低,证明仅根据100个已标注的目标语言的观点数据很难训练出精确稳定的分类模型。其余的五个算法CL-LSA、CL-SCL、CL-MT、CL-OPCA、CL-TS的平均精确度均比TB算法的平均精确度高,这表明根据源语言的观点数据,对目标语言的观点数据进行分类是有效的。
进一步地,这五个算法的平均精确度要远小于本发明实施例所提供方法的平均精确度。在这18个任务中,本发明实施例所提供方法的平均精确度要比TB算法的平均精确度至少要高出9.21%(EJM),最多可以高出15.30%(EFB)。另外,在这18个任务中,本发明实施例所提供方法的平均精确度比CL-LSA、CL-SCL、CL-MT、CL-OPCA算法的平均精确度都要高。
另外,还应用了麦克尼马尔匹配测试,对本发明实施例提供的方法和现有技术中最先进的CL-TS算法进行了显著性检验,结果(以粗体显示)表明本发明实施例提供的方法的效果是显著的,统计的p值满足p<0.05,表示本发明实施例提供的方法优于CL-TS算法的概率大于95%。所有的结果表明本发明实施例提供的基于部分平行数据的子空间学习框架用于跨语言观点分类时具有明显的效果和稳定性。
上述实施例中已说明本发明实施例提供的目标函数是收敛的。在此仅选择了四种任务进行收敛性分析。图3-图6是本发明实施例提供的方法应用于四种任务时目标函数的收敛曲线。图中的纵轴表示目标函数的值,横轴表示迭代次数。从图中可以看出,目标函数的值随着迭代次数增大而单调递减,直至目标函数的值收敛。虽然需要迭代多次(一般60次左右)才能达到收敛,但是GCD算法在每一次迭代时的运行速度很快。
本发明实施例在选取维度k的值时,从数值集合{10,20,50,100,150,250,300}中选取,在选取权衡系数λ的值时,从数值集合{10-5,10-4,10-3,10-2,10-1}中选取。在此仅选择了6个任务,对这6个任务分别选取不同的k值和λ值,通过实验研究,得到了不同k值和λ值时的精确度,如图7-图10。图7和图9中的横轴表示k值,纵轴表示本发明实施例提供方法的平均精确度,图8和图10中的横轴表示λ值,纵轴表示本发明实施例提供方法的平均精确度。由图7-图10可以看出,当k的值为100左右,λ的值为10-2左右时,本发明实施例所提供方法的精确度最高,性能最好。
本发明实施例提供了一种新的子空间学习框架,利用部分平行数据以实现跨语言观点分类。所提供的方法通过一个非负矩阵分解空间,学习源语言和目标语言中的文档平行评论数据和未平行的评论数据。还提出了一种用于学习分解的算法,证明了该算法的收敛性。为了便于对本发明实施例提供的方法进行评价,还针对亚马逊产品的评论,进行了一系列的跨语言观点分类的实验,实验结果表明该方法用于跨语言观点分类是有效的,且性能要优于现有技术中的其他算法。
图11是本发明实施例提供的一种跨语言的观点数据分类装置结构示意图,参见图11,该装置包括:
获取模块1101,用于获取部分平行数据,该部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,该第一源观点数据和该第二源观点数据均为源语言的观点数据,该第一目标观点数据和该第二目标观点数据均为目标语言的观点数据,该第一源观点数据和该第一目标观点数据相互平行;
构造模块1102,用于根据该第一源观点数据和该第二源观点数据,构造源数据矩阵以及由该源数据矩阵分解得到的源基矩阵和源特征矩阵;
目标函数确定模块1103,用于根据该源数据矩阵、该源基矩阵和该源特征矩阵,确定该源语言的第一目标函数;
该构造模块1102,还用于根据该第一目标观点数据和该第二目标观点数据,构造目标数据矩阵以及由该目标数据矩阵分解得到的目标基矩阵和目标特征矩阵;
该目标函数确定模块1103,还用于根据该目标数据矩阵、该目标基矩阵和该目标特征矩阵,确定该目标语言的第二目标函数;
该目标函数确定模块1103,还用于根据该第一目标函数、该第二目标函数和预设条件,确定总目标函数,该预设条件为该源特征矩阵中该第一源观点数据对应的第一源特征矩阵与该目标特征矩阵中该第一目标观点数据对应的第一目标特征矩阵相同;
计算模块1104,用于确定该总目标函数中各个参数的收敛值;
分类模块1105,用于根据该总目标函数中各个参数的收敛值以及该部分平行数据中每个观点数据的标签,建立分类模型,并基于该分类模型,对该目标语言的观点数据进行分类。
本发明实施例提供的装置,通过基于相互平行的第一源观点数据和第一目标观点数据以及不平行的第二源观点数据和第二目标观点数据,采用矩阵分解的方式,将源语言的观点数据和目标语言的观点数据映射至同一子空间中,分别构造出两种语言的观点数据在子空间内的基矩阵和特征矩阵,并确定预设条件为相互平行的观点数据在该子空间内的特征矩阵相同。根据构造的矩阵和该预设条件,确定总目标函数,并确定总目标函数中各个参数的收敛值,能够根据各个参数的收敛值以及每个观点数据的标签,建立分类模型,从而基于该分类模型,对该目标语言的观点数据进行分类。本发明实施例提供了一种基于部分平行数据对跨语言的观点数据进行分类的方法,无需获取完全平行的源语言观点数据和目标语言观点数据,节省了时间成本和人力成本。
可选地,该目标函数确定模块1103还用于根据该源数据矩阵、该源基矩阵和该源特征矩阵,应用以下公式,确定该源语言的第一目标函数:
O s = min V ‾ s ≥ 0 , U s ≥ 0 | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s ) ;
其中,Οs表示该第一目标函数,表示该源数据矩阵,Us表示该源基矩阵,表示该源特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,该目标函数确定模块1103还用于根据该目标数据矩阵、该目标基矩阵和该目标特征矩阵,应用以下公式,确定该目标语言的第二目标函数:
O t = min V ‾ t ≥ 0 , U t ≥ 0 | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示该第二目标函数,表示该目标数据矩阵,Ut表示该目标基矩阵,表示该目标特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,该目标函数确定模块1103包括:
矩阵获取单元,用于获取与该第一源观点数据对应的第一源数据矩阵以及与该第二源观点数据对应的第二源数据矩阵;
矩阵划分单元,用于根据该第一源观点数据和该第二源观点数据的数目,对该源特征矩阵进行划分,得到该第一源观点数据对应的第一源特征矩阵和该第二源观点数据对应的第二源特征矩阵;
该矩阵获取单元,还用于获取与该第一目标观点数据对应的第一目标数据矩阵以及与该第二目标观点数据对应的第二目标数据矩阵;
该矩阵划分单元,还用于根据该第一目标观点数据和该第二目标观点数据的数目,对该目标特征矩阵进行划分,得到该第一目标观点数据对应的第一目标特征矩阵和该第二目标观点数据对应的第二目标特征矩阵;
确定单元,用于根据该第一源数据矩阵、该第二源数据矩阵、该源基矩阵、该第一源特征矩阵、该第二源特征矩阵、该第一目标数据矩阵、该第二目标数据矩阵、该目标基矩阵、该第一目标特征矩阵、该第二目标特征矩阵以及该预设条件,确定该总目标函数。
可选地,该目标函数确定模块1103还用于将该第一源特征矩阵和该第一目标特征矩阵作为第一特征矩阵;应用以下公式,确定该总目标函数:
O = min ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示该总目标函数,表示该第一特征矩阵;λ表示权衡系数,||·||F表示费罗贝尼乌斯范数,||·||1表示矩阵的第一范数;
表示该第一源数据矩阵,Xs表示该第二源数据矩阵,Vs表示该第二源特征矩阵,Us表示该源基矩阵;
表示该第一目标数据矩阵,Xt表示该第二目标数据矩阵,Vt表示该第二目标特征矩阵,Ut表示该目标基矩阵;
U s ≥ 0 , U t ≥ 0 , V ^ c ≥ 0 , V s ≥ 0 , V t ≥ 0 .
可选地,该将该第一源特征矩阵和该第一目标特征矩阵作为第一特征矩阵,该总目标函数的参数包括:该第一特征矩阵、该第二源特征矩阵、该第二目标特征矩阵、该源基矩阵和该目标基矩阵;
该计算模块1104包括:
初始化单元,用于对该源基矩阵和该目标基矩阵进行初始化,得到该源基矩阵的初始值和该目标基矩阵的初始值;
第一迭代计算单元,用于基于该源基矩阵的初始值和该目标基矩阵的初始值,对该第一特征矩阵进行迭代计算,得到该第一特征矩阵的当前迭代值,直至该总目标函数基于该第一特征矩阵收敛,将该第一特征矩阵的当前迭代值作为该第一特征矩阵的收敛值;
第二迭代计算单元,用于基于该源基矩阵的初始值和该目标基矩阵的初始值,对该第二源特征矩阵进行迭代计算,得到该第二源特征矩阵的当前迭代值,直至该总目标函数基于该第二源特征矩阵收敛,将该第二源特征矩阵的当前迭代值作为该第二源特征矩阵的收敛值;
第三迭代计算单元,用于基于该源基矩阵的初始值和该目标基矩阵的初始值,对该第二目标特征矩阵进行迭代计算,得到该第二目标特征矩阵的当前迭代值,直至该总目标函数基于该第二目标特征矩阵收敛,将该第二目标特征矩阵的当前迭代值作为该第二目标特征矩阵的收敛值;
第四迭代计算单元,用于基于该第一特征矩阵的收敛值和该第二源特征矩阵的收敛值,对该源基矩阵进行迭代计算,得到该源基矩阵的当前迭代值,直至该总目标函数基于该源基矩阵收敛,将该源基矩阵的当前迭代值作为该源基矩阵的收敛值;
第五迭代计算单元,用于基于该第一特征矩阵的收敛值和该第二目标特征矩阵的收敛值,对该目标基矩阵进行迭代计算,得到该目标基矩阵的当前迭代值,直至该总目标函数基于该目标基矩阵收敛,将该目标基矩阵的当前迭代值作为该目标基矩阵的收敛值。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的跨语言的观点数据分类装置在进行跨语言的观点数据分类时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将分类装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的跨语言的观点数据分类装置与跨语言的观点数据分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图12是本发明实施例提供的一种终端的结构示意图。该终端可以用于实施上述实施例所示出的跨语言的观点数据分类方法。具体来讲:
终端1200可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、传输模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图12中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他终端通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,如上述示例性实施例所示出的终端所对应的软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理,如实现基于视频的交互等。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1200的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入终端132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的链接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入终端132。具体地,其他输入终端132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端1200的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图12中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端1200还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端1200移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1200还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端1200之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端1200的通信。
终端1200通过传输模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线或有线的宽带互联网访问。虽然图12示出了传输模块170,但是可以理解的是,其并不属于终端1200的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端1200的控制中心,利用各种接口和线路链接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端1200的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端1200还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1200还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端的显示单元是触摸屏显示器,终端还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行上述一个或者一个以上程序包含用于实施以下操作的指令:
获取部分平行数据,所述部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,所述第一源观点数据和所述第二源观点数据均为源语言的观点数据,所述第一目标观点数据和所述第二目标观点数据均为目标语言的观点数据,所述第一源观点数据和所述第一目标观点数据相互平行;
根据所述第一源观点数据和所述第二源观点数据,构造源数据矩阵以及由所述源数据矩阵分解得到的源基矩阵和源特征矩阵,并根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数;
根据所述第一目标观点数据和所述第二目标观点数据,构造目标数据矩阵以及由所述目标数据矩阵分解得到的目标基矩阵和目标特征矩阵,并根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数;
根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,所述预设条件为所述源特征矩阵中所述第一源观点数据对应的第一源特征矩阵与所述目标特征矩阵中所述第一目标观点数据对应的第一目标特征矩阵相同;
确定所述总目标函数中各个参数的收敛值;
根据所述总目标函数中各个参数的收敛值以及所述部分平行数据中每个观点数据的标签,建立分类模型,并基于所述分类模型,对所述目标语言的观点数据进行分类。
可选地,所述根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数,包括:
根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,应用以下公式,确定所述源语言的第一目标函数:
O s = | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s ) ;
其中,Οs表示所述第一目标函数,表示所述源数据矩阵,Us表示所述源基矩阵,表示所述源特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,所述根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数,包括:
根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,应用以下公式,确定所述目标语言的第二目标函数:
O t = | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示所述第二目标函数,表示所述目标数据矩阵,Ut表示所述目标基矩阵,表示所述目标特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,所述根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,包括:
获取与所述第一源观点数据对应的第一源数据矩阵以及与所述第二源观点数据对应的第二源数据矩阵;
根据所述第一源观点数据和所述第二源观点数据的数目,对所述源特征矩阵进行划分,得到所述第一源观点数据对应的第一源特征矩阵和所述第二源观点数据对应的第二源特征矩阵;
获取与所述第一目标观点数据对应的第一目标数据矩阵以及与所述第二目标观点数据对应的第二目标数据矩阵;
根据所述第一目标观点数据和所述第二目标观点数据的数目,对所述目标特征矩阵进行划分,得到所述第一目标观点数据对应的第一目标特征矩阵和所述第二目标观点数据对应的第二目标特征矩阵;
根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵以及所述预设条件,确定所述总目标函数。
可选地,所述根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵,确定所述总目标函数,包括:
将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵;
应用以下公式,确定所述总目标函数:
O = ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示所述总目标函数,表示所述第一特征矩阵;λ表示权衡系数,||·||F表示费罗贝尼乌斯范数,||·||1表示矩阵的第一范数;
表示所述第一源数据矩阵,Xs表示所述第二源数据矩阵,Vs表示所述第二源特征矩阵,Us表示所述源基矩阵;
表示所述第一目标数据矩阵,Xt表示所述第二目标数据矩阵,Vt表示所述第二目标特征矩阵,Ut表示所述目标基矩阵;
U s ≥ 0 , U t ≥ 0 , V ^ c ≥ 0 , V s ≥ 0 , V t ≥ 0 .
可选地,将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵,所述总目标函数的参数包括:所述第一特征矩阵、所述第二源特征矩阵、所述第二目标特征矩阵、所述源基矩阵和所述目标基矩阵;
所述确定所述总目标函数中各个参数的收敛值,包括:
对所述源基矩阵和所述目标基矩阵进行初始化,得到所述源基矩阵的初始值和所述目标基矩阵的初始值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第一特征矩阵进行迭代计算,得到所述第一特征矩阵的当前迭代值,直至所述总目标函数基于所述第一特征矩阵收敛,将所述第一特征矩阵的当前迭代值作为所述第一特征矩阵的收敛值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二源特征矩阵进行迭代计算,得到所述第二源特征矩阵的当前迭代值,直至所述总目标函数基于所述第二源特征矩阵收敛,将所述第二源特征矩阵的当前迭代值作为所述第二源特征矩阵的收敛值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二目标特征矩阵进行迭代计算,得到所述第二目标特征矩阵的当前迭代值,直至所述总目标函数基于所述第二目标特征矩阵收敛,将所述第二目标特征矩阵的当前迭代值作为所述第二目标特征矩阵的收敛值;
基于所述第一特征矩阵的收敛值和所述第二源特征矩阵的收敛值,对所述源基矩阵进行迭代计算,得到所述源基矩阵的当前迭代值,直至所述总目标函数基于所述源基矩阵收敛,将所述源基矩阵的当前迭代值作为所述源基矩阵的收敛值;
基于所述第一特征矩阵的收敛值和所述第二目标特征矩阵的收敛值,对所述目标基矩阵进行迭代计算,得到所述目标基矩阵的当前迭代值,直至所述总目标函数基于所述目标基矩阵收敛,将所述目标基矩阵的当前迭代值作为所述目标基矩阵的收敛值。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。该计算机可读存储介质存储有一个或者一个以上程序,该一个或者一个以上程序被一个或者一个以上的处理器用来执行跨语言的观点数据分类方法,该方法包括:
获取部分平行数据,所述部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,所述第一源观点数据和所述第二源观点数据均为源语言的观点数据,所述第一目标观点数据和所述第二目标观点数据均为目标语言的观点数据,所述第一源观点数据和所述第一目标观点数据相互平行;
根据所述第一源观点数据和所述第二源观点数据,构造源数据矩阵以及由所述源数据矩阵分解得到的源基矩阵和源特征矩阵,并根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数;
根据所述第一目标观点数据和所述第二目标观点数据,构造目标数据矩阵以及由所述目标数据矩阵分解得到的目标基矩阵和目标特征矩阵,并根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数;
根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,所述预设条件为所述源特征矩阵中所述第一源观点数据对应的第一源特征矩阵与所述目标特征矩阵中所述第一目标观点数据对应的第一目标特征矩阵相同;
确定所述总目标函数中各个参数的收敛值;
根据所述总目标函数中各个参数的收敛值以及所述部分平行数据中每个观点数据的标签,建立分类模型,并基于所述分类模型,对所述目标语言的观点数据进行分类。
可选地,所述根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数,包括:
根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,应用以下公式,确定所述源语言的第一目标函数:
O s = | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s ) ;
其中,Οs表示所述第一目标函数,表示所述源数据矩阵,Us表示所述源基矩阵,表示所述源特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,所述根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数,包括:
根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,应用以下公式,确定所述目标语言的第二目标函数:
O t = | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示所述第二目标函数,表示所述目标数据矩阵,Ut表示所述目标基矩阵,表示所述目标特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
可选地,所述根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,包括:
获取与所述第一源观点数据对应的第一源数据矩阵以及与所述第二源观点数据对应的第二源数据矩阵;
根据所述第一源观点数据和所述第二源观点数据的数目,对所述源特征矩阵进行划分,得到所述第一源观点数据对应的第一源特征矩阵和所述第二源观点数据对应的第二源特征矩阵;
获取与所述第一目标观点数据对应的第一目标数据矩阵以及与所述第二目标观点数据对应的第二目标数据矩阵;
根据所述第一目标观点数据和所述第二目标观点数据的数目,对所述目标特征矩阵进行划分,得到所述第一目标观点数据对应的第一目标特征矩阵和所述第二目标观点数据对应的第二目标特征矩阵;
根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵以及所述预设条件,确定所述总目标函数。
可选地,所述根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵,确定所述总目标函数,包括:
将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵;
应用以下公式,确定所述总目标函数:
O = ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示所述总目标函数,表示所述第一特征矩阵;λ表示权衡系数,||·||F表示费罗贝尼乌斯范数,||·||1表示矩阵的第一范数;
表示所述第一源数据矩阵,Xs表示所述第二源数据矩阵,Vs表示所述第二源特征矩阵,Us表示所述源基矩阵;
表示所述第一目标数据矩阵,Xt表示所述第二目标数据矩阵,Vt表示所述第二目标特征矩阵,Ut表示所述目标基矩阵;
U s ≥ 0 , U t ≥ 0 , V ^ c ≥ 0 , V s ≥ 0 , V t ≥ 0 .
可选地,将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵,所述总目标函数的参数包括:所述第一特征矩阵、所述第二源特征矩阵、所述第二目标特征矩阵、所述源基矩阵和所述目标基矩阵;
所述确定所述总目标函数中各个参数的收敛值,包括:
对所述源基矩阵和所述目标基矩阵进行初始化,得到所述源基矩阵的初始值和所述目标基矩阵的初始值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第一特征矩阵进行迭代计算,得到所述第一特征矩阵的当前迭代值,直至所述总目标函数基于所述第一特征矩阵收敛,将所述第一特征矩阵的当前迭代值作为所述第一特征矩阵的收敛值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二源特征矩阵进行迭代计算,得到所述第二源特征矩阵的当前迭代值,直至所述总目标函数基于所述第二源特征矩阵收敛,将所述第二源特征矩阵的当前迭代值作为所述第二源特征矩阵的收敛值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二目标特征矩阵进行迭代计算,得到所述第二目标特征矩阵的当前迭代值,直至所述总目标函数基于所述第二目标特征矩阵收敛,将所述第二目标特征矩阵的当前迭代值作为所述第二目标特征矩阵的收敛值;
基于所述第一特征矩阵的收敛值和所述第二源特征矩阵的收敛值,对所述源基矩阵进行迭代计算,得到所述源基矩阵的当前迭代值,直至所述总目标函数基于所述源基矩阵收敛,将所述源基矩阵的当前迭代值作为所述源基矩阵的收敛值;
基于所述第一特征矩阵的收敛值和所述第二目标特征矩阵的收敛值,对所述目标基矩阵进行迭代计算,得到所述目标基矩阵的当前迭代值,直至所述总目标函数基于所述目标基矩阵收敛,将所述目标基矩阵的当前迭代值作为所述目标基矩阵的收敛值。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种跨语言的观点数据分类方法,其特征在于,所述方法包括:
获取部分平行数据,所述部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,所述第一源观点数据和所述第二源观点数据均为源语言的观点数据,所述第一目标观点数据和所述第二目标观点数据均为目标语言的观点数据,所述第一源观点数据和所述第一目标观点数据相互平行;
根据所述第一源观点数据和所述第二源观点数据,构造源数据矩阵以及由所述源数据矩阵分解得到的源基矩阵和源特征矩阵,并根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数;
根据所述第一目标观点数据和所述第二目标观点数据,构造目标数据矩阵以及由所述目标数据矩阵分解得到的目标基矩阵和目标特征矩阵,并根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数;
根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,所述预设条件为所述源特征矩阵中所述第一源观点数据对应的第一源特征矩阵与所述目标特征矩阵中所述第一目标观点数据对应的第一目标特征矩阵相同;
确定所述总目标函数中各个参数的收敛值;
根据所述总目标函数中各个参数的收敛值以及所述部分平行数据中每个观点数据的标签,建立分类模型,并基于所述分类模型,对所述目标语言的观点数据进行分类。
2.根据权利要求1所述的方法,其特征在于,所述根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数,包括:
根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,应用以下公式,确定所述源语言的第一目标函数:
O s = | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s ) ;
其中,Οs表示所述第一目标函数,表示所述源数据矩阵,Us表示所述源基矩阵,表示所述源特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数,包括:
根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,应用以下公式,确定所述目标语言的第二目标函数:
O t = | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示所述第二目标函数,表示所述目标数据矩阵,Ut表示所述目标基矩阵,表示所述目标特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,包括:
获取与所述第一源观点数据对应的第一源数据矩阵以及与所述第二源观点数据对应的第二源数据矩阵;
根据所述第一源观点数据和所述第二源观点数据的数目,对所述源特征矩阵进行划分,得到所述第一源观点数据对应的第一源特征矩阵和所述第二源观点数据对应的第二源特征矩阵;
获取与所述第一目标观点数据对应的第一目标数据矩阵以及与所述第二目标观点数据对应的第二目标数据矩阵;
根据所述第一目标观点数据和所述第二目标观点数据的数目,对所述目标特征矩阵进行划分,得到所述第一目标观点数据对应的第一目标特征矩阵和所述第二目标观点数据对应的第二目标特征矩阵;
根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵以及所述预设条件,确定所述总目标函数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵,确定所述总目标函数,包括:
将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵;
应用以下公式,确定所述总目标函数:
O = ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示所述总目标函数,表示所述第一特征矩阵;λ表示权衡系数,||·||F表示费罗贝尼乌斯范数,||·||1表示矩阵的第一范数;
表示所述第一源数据矩阵,Xs表示所述第二源数据矩阵,Vs表示所述第二源特征矩阵,Us表示所述源基矩阵;
表示所述第一目标数据矩阵,Xt表示所述第二目标数据矩阵,Vt表示所述第二目标特征矩阵,Ut表示所述目标基矩阵。
6.根据权利要求1所述的方法,其特征在于,将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵,所述总目标函数的参数包括:所述第一特征矩阵、所述第二源特征矩阵、所述第二目标特征矩阵、所述源基矩阵和所述目标基矩阵;
所述确定所述总目标函数中各个参数的收敛值,包括:
对所述源基矩阵和所述目标基矩阵进行初始化,得到所述源基矩阵的初始值和所述目标基矩阵的初始值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第一特征矩阵进行迭代计算,得到所述第一特征矩阵的当前迭代值,直至所述总目标函数基于所述第一特征矩阵收敛,将所述第一特征矩阵的当前迭代值作为所述第一特征矩阵的收敛值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二源特征矩阵进行迭代计算,得到所述第二源特征矩阵的当前迭代值,直至所述总目标函数基于所述第二源特征矩阵收敛,将所述第二源特征矩阵的当前迭代值作为所述第二源特征矩阵的收敛值;
基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二目标特征矩阵进行迭代计算,得到所述第二目标特征矩阵的当前迭代值,直至所述总目标函数基于所述第二目标特征矩阵收敛,将所述第二目标特征矩阵的当前迭代值作为所述第二目标特征矩阵的收敛值;
基于所述第一特征矩阵的收敛值和所述第二源特征矩阵的收敛值,对所述源基矩阵进行迭代计算,得到所述源基矩阵的当前迭代值,直至所述总目标函数基于所述源基矩阵收敛,将所述源基矩阵的当前迭代值作为所述源基矩阵的收敛值;
基于所述第一特征矩阵的收敛值和所述第二目标特征矩阵的收敛值,对所述目标基矩阵进行迭代计算,得到所述目标基矩阵的当前迭代值,直至所述总目标函数基于所述目标基矩阵收敛,将所述目标基矩阵的当前迭代值作为所述目标基矩阵的收敛值。
7.一种跨语言的观点数据分类装置,其特征在于,所述装置包括:
获取模块,用于获取部分平行数据,所述部分平行数据包括第一源观点数据、第二源观点数据、第一目标观点数据和第二目标观点数据,所述第一源观点数据和所述第二源观点数据均为源语言的观点数据,所述第一目标观点数据和所述第二目标观点数据均为目标语言的观点数据,所述第一源观点数据和所述第一目标观点数据相互平行;
构造模块,用于根据所述第一源观点数据和所述第二源观点数据,构造源数据矩阵以及由所述源数据矩阵分解得到的源基矩阵和源特征矩阵;
目标函数确定模块,用于根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,确定所述源语言的第一目标函数;
所述构造模块,还用于根据所述第一目标观点数据和所述第二目标观点数据,构造目标数据矩阵以及由所述目标数据矩阵分解得到的目标基矩阵和目标特征矩阵;
所述目标函数确定模块,还用于根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,确定所述目标语言的第二目标函数;
所述目标函数确定模块,还用于根据所述第一目标函数、所述第二目标函数和预设条件,确定总目标函数,所述预设条件为所述源特征矩阵中所述第一源观点数据对应的第一源特征矩阵与所述目标特征矩阵中所述第一目标观点数据对应的第一目标特征矩阵相同;
计算模块,用于确定所述总目标函数中各个参数的收敛值;
分类模块,用于根据所述总目标函数中各个参数的收敛值以及所述部分平行数据中每个观点数据的标签,建立分类模型,并基于所述分类模型,对所述目标语言的观点数据进行分类。
8.根据权利要求7所述的装置,其特征在于,所述目标函数确定模块还用于根据所述源数据矩阵、所述源基矩阵和所述源特征矩阵,应用以下公式,确定所述源语言的第一目标函数:
O s = | | X ‾ s - V ‾ s U s | | F 2 + λΩ ( V ‾ s )
其中,Οs表示所述第一目标函数,表示所述源数据矩阵,Us表示所述源基矩阵,表示所述源特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
9.根据权利要求7或8所述的装置,其特征在于,所述目标函数确定模块还用于根据所述目标数据矩阵、所述目标基矩阵和所述目标特征矩阵,应用以下公式,确定所述目标语言的第二目标函数:
O t = | | X ‾ t - V ‾ t U t | | F 2 + λΩ ( V ‾ t ) ;
其中,Οt表示所述第二目标函数,表示所述目标数据矩阵,Ut表示所述目标基矩阵,表示所述目标特征矩阵,λ表示权衡系数,表示正则项,||·||F表示费罗贝尼乌斯范数。
10.根据权利要求7所述的装置,其特征在于,所述目标函数确定模块包括:
矩阵获取单元,用于获取与所述第一源观点数据对应的第一源数据矩阵以及与所述第二源观点数据对应的第二源数据矩阵;
矩阵划分单元,用于根据所述第一源观点数据和所述第二源观点数据的数目,对所述源特征矩阵进行划分,得到所述第一源观点数据对应的第一源特征矩阵和所述第二源观点数据对应的第二源特征矩阵;
所述矩阵获取单元,还用于获取与所述第一目标观点数据对应的第一目标数据矩阵以及与所述第二目标观点数据对应的第二目标数据矩阵;
所述矩阵划分单元,还用于根据所述第一目标观点数据和所述第二目标观点数据的数目,对所述目标特征矩阵进行划分,得到所述第一目标观点数据对应的第一目标特征矩阵和所述第二目标观点数据对应的第二目标特征矩阵;
确定单元,用于根据所述第一源数据矩阵、所述第二源数据矩阵、所述源基矩阵、所述第一源特征矩阵、所述第二源特征矩阵、所述第一目标数据矩阵、所述第二目标数据矩阵、所述目标基矩阵、所述第一目标特征矩阵、所述第二目标特征矩阵以及所述预设条件,确定所述总目标函数。
11.根据权利要求10所述的装置,其特征在于,所述目标函数确定模块还用于将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵;
应用以下公式,确定所述总目标函数:
O = ( | | X ^ c s X s - V ^ c V s U s | | F 2 + λ | | V ^ c V s | | 1 + | | X ^ c t X t - V ^ c V t U t | | F 2 + λ | | V ^ c V t | | 1 ) ;
其中,Ο表示所述总目标函数,表示所述第一特征矩阵;λ表示权衡系数,||·||F表示费罗贝尼乌斯范数,||·||1表示矩阵的第一范数;
表示所述第一源数据矩阵,Xs表示所述第二源数据矩阵,Vs表示所述第二源特征矩阵,Us表示所述源基矩阵;
表示所述第一目标数据矩阵,Xt表示所述第二目标数据矩阵,Vt表示所述第二目标特征矩阵,Ut表示所述目标基矩阵。
12.根据权利要求7所述的装置,其特征在于,所述将所述第一源特征矩阵和所述第一目标特征矩阵作为第一特征矩阵,所述总目标函数的参数包括:所述第一特征矩阵、所述第二源特征矩阵、所述第二目标特征矩阵、所述源基矩阵和所述目标基矩阵;
所述计算模块包括:
初始化单元,用于对所述源基矩阵和所述目标基矩阵进行初始化,得到所述源基矩阵的初始值和所述目标基矩阵的初始值;
第一迭代计算单元,用于基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第一特征矩阵进行迭代计算,得到所述第一特征矩阵的当前迭代值,直至所述总目标函数基于所述第一特征矩阵收敛,将所述第一特征矩阵的当前迭代值作为所述第一特征矩阵的收敛值;
第二迭代计算单元,用于基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二源特征矩阵进行迭代计算,得到所述第二源特征矩阵的当前迭代值,直至所述总目标函数基于所述第二源特征矩阵收敛,将所述第二源特征矩阵的当前迭代值作为所述第二源特征矩阵的收敛值;
第三迭代计算单元,用于基于所述源基矩阵的初始值和所述目标基矩阵的初始值,对所述第二目标特征矩阵进行迭代计算,得到所述第二目标特征矩阵的当前迭代值,直至所述总目标函数基于所述第二目标特征矩阵收敛,将所述第二目标特征矩阵的当前迭代值作为所述第二目标特征矩阵的收敛值;
第四迭代计算单元,用于基于所述第一特征矩阵的收敛值和所述第二源特征矩阵的收敛值,对所述源基矩阵进行迭代计算,得到所述源基矩阵的当前迭代值,直至所述总目标函数基于所述源基矩阵收敛,将所述源基矩阵的当前迭代值作为所述源基矩阵的收敛值;
第五迭代计算单元,用于基于所述第一特征矩阵的收敛值和所述第二目标特征矩阵的收敛值,对所述目标基矩阵进行迭代计算,得到所述目标基矩阵的当前迭代值,直至所述总目标函数基于所述目标基矩阵收敛,将所述目标基矩阵的当前迭代值作为所述目标基矩阵的收敛值。
CN201510316362.6A 2015-06-10 2015-06-10 跨语言的观点数据分类方法和装置 Active CN106294507B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510316362.6A CN106294507B (zh) 2015-06-10 2015-06-10 跨语言的观点数据分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510316362.6A CN106294507B (zh) 2015-06-10 2015-06-10 跨语言的观点数据分类方法和装置

Publications (2)

Publication Number Publication Date
CN106294507A true CN106294507A (zh) 2017-01-04
CN106294507B CN106294507B (zh) 2020-07-24

Family

ID=57659115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510316362.6A Active CN106294507B (zh) 2015-06-10 2015-06-10 跨语言的观点数据分类方法和装置

Country Status (1)

Country Link
CN (1) CN106294507B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781859A (zh) * 2019-11-05 2020-02-11 深圳奇迹智慧网络有限公司 图像标注方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217534A3 (en) * 2000-12-18 2006-06-07 Xerox Corporation Method and apparatus for terminology translation
CN101127042A (zh) * 2007-09-21 2008-02-20 浙江大学 一种基于语言模型的情感分类方法
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
US8639701B1 (en) * 2010-11-23 2014-01-28 Google Inc. Language selection for information retrieval
CN103577498A (zh) * 2012-08-09 2014-02-12 北京百度网讯科技有限公司 一种跨语言自动构建分类规则的方法和装置
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1217534A3 (en) * 2000-12-18 2006-06-07 Xerox Corporation Method and apparatus for terminology translation
CN101127042A (zh) * 2007-09-21 2008-02-20 浙江大学 一种基于语言模型的情感分类方法
US8639701B1 (en) * 2010-11-23 2014-01-28 Google Inc. Language selection for information retrieval
CN103577498A (zh) * 2012-08-09 2014-02-12 北京百度网讯科技有限公司 一种跨语言自动构建分类规则的方法和装置
CN103530286A (zh) * 2013-10-31 2014-01-22 苏州大学 一种跨语言情感分类方法
CN103995853A (zh) * 2014-05-12 2014-08-20 中国科学院计算技术研究所 基于关键句的多语言情感数据处理分类方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110781859A (zh) * 2019-11-05 2020-02-11 深圳奇迹智慧网络有限公司 图像标注方法、装置、计算机设备和存储介质
CN110781859B (zh) * 2019-11-05 2022-08-19 深圳奇迹智慧网络有限公司 图像标注方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN106294507B (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
CN110162799B (zh) 模型训练方法、机器翻译方法以及相关装置和设备
KR102646667B1 (ko) 이미지 영역을 찾기 위한 방법, 모델 훈련 방법 및 관련 장치
CN110472251B (zh) 翻译模型训练的方法、语句翻译的方法、设备及存储介质
CN106156807B (zh) 卷积神经网络模型的训练方法及装置
CN110334344B (zh) 一种语义意图识别方法、装置、设备及存储介质
CN110704661B (zh) 一种图像分类方法和装置
WO2020103721A1 (zh) 信息处理的方法、装置及存储介质
CN109670174B (zh) 一种事件识别模型的训练方法和装置
CN112101329B (zh) 一种基于视频的文本识别方法、模型训练的方法及装置
CN111914113A (zh) 一种图像检索的方法以及相关装置
CN113284142B (zh) 图像检测方法、装置、计算机可读存储介质及计算机设备
CN112214605A (zh) 一种文本分类方法和相关装置
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN113723378B (zh) 一种模型训练的方法、装置、计算机设备和存储介质
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN111368525A (zh) 信息搜索方法、装置、设备及存储介质
CN112862021B (zh) 一种内容标注方法和相关装置
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN107704514A (zh) 一种照片管理方法、装置及计算机可读存储介质
CN111651604A (zh) 基于人工智能的情感分类方法和相关装置
CN117540205A (zh) 模型训练方法、相关装置及存储介质
CN112232048B (zh) 一种基于神经网络的表格处理方法以及相关装置
CN112836523B (zh) 一种单词翻译方法、装置、设备和一种可读存储介质
CN113704008A (zh) 一种异常检测方法、问题诊断方法和相关产品
CN106294507B (zh) 跨语言的观点数据分类方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant