CN101138001A

CN101138001A - 学习处理方法和学习处理装置以及程序

Info

Publication number: CN101138001A
Application number: CNA2006800076837A
Authority: CN
Inventors: 土井晃一; 三森智裕; 福田安志; 实井仁; 村田真树
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2005-03-11
Filing date: 2006-03-10
Publication date: 2008-03-05
Also published as: JP2006252333A; WO2006095853A1

Abstract

提供一种学习处理方法和装置，能在用多个学习数据进行基于计算机的机器学习时，提高学习速度和机器学习精度。在相似学习数据产生部(4)选择n个学习数据(SDq)中与被处理数据之间的相似性高的相似学习数据(SSDq)。机器学习机(5)用相似学习数据(SSDq)进行机器学习。

Description

学习处理方法和学习处理装置以及程序

技术领域

本发明涉及用学习数据处理被学习数据的学习处理方法、学习处理装置以及程序。

背景技术

例如，基因分析系统对基因之间的作用使用将基因(分子)作为节点并将作用作为节点间的链路表现的数据库。

构建这种数据库时，例如从公开的论文中提取基因名，作为节点登记到数据库。然而，由于公开的论文数量庞大，以人看论文的方式提取基因名，负担很大。因此，考虑用计算机等检索各种论文，从检索到的论文提取基因名。然而，难于以机器方式提取计算机未登记的新基因名。

例如从文字数据提取人名、地名、组织名等固有表现时，也产生同样的问题。

例如，下列的文献1～3提出解决这种问题的技术。

文献1：“Gene/protein recognition using Support Vector Machineafter dictionary matching”，Tomohiro Mitsumori，Sevrani Fation，MasakiMurata，Kouichi Doi and Hirohumi Doi BioCreative Workshop：CriticalAssessment for Information Extraction in Biology(BioCreative2004)，Granada，Spain，March，2004

文献2：中野、平井，日语固有表现提取中的文节信息的利用，信息处理学会论文志，Vol.45、No.3，p934-941，Mar.2004

文献3：平、春野，基于支援矢量机的文本分类中的分类选择，信息处理学会论文志，Vol.45、No.4，p1113-1123，Apr.2004

下面，说明支援矢量机(SVM：Support Vector Machine)的基本事项。SVM法是通过以超平面划分空间对包含2类的数据分类的方法。这时，设2个分类由正例和负例组成，则认为学习数据中的正例与负例的间隔(边际)越大，因开放数据而作错误分类的可能性越小，SVM法是求出使该边际最大的超平面并使用该超平面进行分类的方法。

已知的机器学习装置如SVM法等那样，预先对被学习数据(training data)确定在规定的分析单元(token)出现希望的固有表现的模式，将该模式用作学习数据，从被处理数据提取所述固有表现。

这种机器学习装置例如使用该机器学习装置保持的多个学习数据的全部，从被处理数据提取希望的固有表现。上述机器学习装置使用该机器学习装置保持的全部学习数据，从有关被处理数据提取固有表现，而与被处理数据的分类无关。其结果，有时使用与被处理数据的分类相似性低的学习数据，存在提取固有表现的可靠性低的弊病。

上述基因分析系统以外的机器学习装置，也存在同样的弊病。

本发明的目的在于提供一种用多个学习数据对被处理数据实施处理时能提高该处理的可靠性的学习处理方法、学习处理装置和程序。

发明内容

根据本发明，提供一种学习处理方法，用具有被学习数据和表示被学习数据的分类的分类数据的多个学习数据，对被处理数据进行机器学习处理，其中具有：求出表示所述多个学习数据中包含的所述被学习数据与所述被处理数据的相似性的相似性数据的第1工序；选择所述多个学习数据中所述相似性数据超过规定值的学习数据的第2工序；以及用所述第2工序中选择的所述学习数据，对所述被处理数据进行机器学习处理的第3工序。

最好所述多个学习数据分别包含被学习数据和表示该被学习数据的分类的分类数据，所述第3工序中，参照在所述第2工序选择的所述学习数据中包含的分类数据，对所述被处理数据进行机器学习处理。

最好在所述第1工序中，对每一构成所述被学习数据的处理单位数据和构成所述被处理数据的处理单位数据，预先决定各被学习数据的特征并将其作为特征评价坐标系内规定的距离矢量数据表示，而且根据该距离矢量数据产生所述相似性数据。

最好在所述第1工序中，确定所述被处理数据和所述被学习数据中包含的不同类型的所述处理单位数据，对各所述被处理数据和被学习数据，分别确定包含各所述不同类型的所述处理单位数据的数量，将该确定的数量除以构成各所述被处理数据和被学习数据的所述处理单位数据的总数，产生指标数据，并且根据对各所述被处理数据和所述被学习数据取得的所述不同类型的所述处理单位数据的所述指标数据的组合的模式，产生所述相似性数据。

最好在所述第1工序中，产生将对所述各被处理数据和所述被学习数据取得的所述不同类型的所述处理单位数据的所述指标数据作为要素的距离矢量数据，并且根据所述被处理数据的所述距离矢量数据与所述多个被学习数据的所述距离矢量数据的关系，产生所述相似性数据。

最好在所述第1工序中，随着包含所述确定的类型的所述处理单位数据的所述被处理数据和被学习数据的数量变多，对所述指标数据进行减小该类型的所述处理单位数据的所述指标数据的值的处理，并且根据实施该处理后的所述指标数据的所述组合模式产生所述相似性数据。

根据本发明，还提供一种程序，用具有被学习数据和表示被学习数据的分类的分类数据的多个学习数据，对被处理数据进行机器学习处理，其中具有：求出表示所述多个学习数据中包含的所述被学习数据与所述被处理数据的相似性的相似性数据的第1步骤；选择所述多个学习数据中所述相似性数据超过规定值的学习数据的第2步骤；以及用所述第2步骤中选择的所述学习数据，对所述被处理数据进行机器学习处理的第3步骤。

根据本发明，还提供一种学习处理装置，用具有被学习数据和表示被学习数据的分类的分类数据的多个学习数据，对被处理数据进行机器学习处理，其中具有：求出表示所述多个学习数据中包含的所述被学习数据与所述被处理数据的相似性的相似性数据的相似性数据产生单元；选择所述多个学习数据中所述相似性数据超过规定值的学习数据的学习数据选择单元；以及用所述第2工序中选择的所述学习数据，对所述被处理数据进行机器学习处理的机器学习单元。

根据本发明的学习处理装置、学习处理方法及其程序，能在用多个学习数据对被处理数据实施处理时，提高该处理的可靠性。

附图说明

图1是本发明实施方式1的机器学习系统的组成图。

图2是说明本发明实施方式1的机器学习系统用的图。

图3是本发明实施方式2的机器学习装置的组成图。

图4是说明本发明实施方式2的被学习数据Rq和学习数据SDq用的图。

图5是图2所示相似学习数据选择部的组成图。

图6是说明本发明实施方式2的被处理数据等用的图。

图7是说明本发明实施方式2的被处理数据等用的图。

图8是本发明实施方式2的标记添加部的组成图。

图9是本发明实施方式2的分类数据(IOB)判断数据产生部的组成图。

图10是说明本发明实施方式3的IOB判断数据用的图。

图11是说明本发明实施方式2的标记添加部用的图。

图12是说明本发明实施方式2的IOB添加部用的图。

图13是说明图3所示机器学习装置的动作例用的图。

图14是说明本发明实施方式3用的图。

标号说明

1是机器学习装置，2是相似学习数据产生机，3是相似性计算部，4是相似学习数据产生部，11是相似学习数据选择部，13是标记添加部，15是IOB判断数据产生部，21是标记添加部，22是IOB添加部，31是输入部，32是输入部，33是加法电路，34是学习数据选择部，35是输出比，41是输入部，42是品词添加部，43是后缀添加部，44是输出部，51是输入部，52是SVM学习部，53是输出部，61是输入部，62是品词添加部，63是后缀添加部，64是输出部，71是输入部，72是IOB判断部，73是输出部。

具体实施方式

下面，说明本发明的学习处理方法、学习处理装置以及程序的实施方式所涉及的机器学习系统。

实施方式1

图1是本发明实施方式1的机器学习系统的组成图。

本实施方式的机器学习系统10具有相似学习数据产生机2和机器学习机5。

相似学习数据产生机2具有相似性计算部3和相似学习数据产生部4。

机器学习系统10从正答例集合(正确回答例的集合)(例如用于学习的数据(学习数据：Training Data)SDq)中选择与希望解决的问题(例如问题数据TD(Test Data：测试数据))的相似性(Similarity)满足规定条件的部分集合(例如相似学习数据(S imil arity Training Data)SSDq)，并将选择的相似学习数据SSDq作为对机器学习机5的学习数据，从而谋求提高学习速度和学习精度。

这样，在实施方式1中，例如从学习数据SDq中选择与问题数据TD的相似性高(或关联性高)的相似学习数据SSDq，将选择的相似学习数据SSDq输入到机器学习机5，并且机器学习机5用选择的相似学习数据SSDq作机器学习。机器学习机5通过用与问题数据TD的相似性高的相似学习数据SSDq进行学习，使学习速度和学习精度提高。

机器学习是指用计算机进行学习的技术。

为了促进理解权利要求书记载的本发明，说明本实施方式的组成要素与本发明的组成要素的对应关系，仅供参考。

例如，图1所示的问题数据TD对应于本发明的被处理数据，学习数据SDq对应于本发明的学习数据。被学习数据Rq对应于本发明的被学习数据。后面说明的“单词”对应于本发明的处理单位数据。相似性数据BAq对应于本发明的相似性数据。相似性计算部3对应于本发明的像素数据产生单元，相似学习数据产生单元4对应于本发明的选择单元，机器学习机5对应于本发明的学习处理单元。

可将相似性计算部3、相似学习数据产生部4和机器学习机5的处理内容(功能)作为程序进行记述，并且用计算机执行。这时，该程序对应于本发明的程序。

相似性计算部

学习数据SDq例如参照图1和图4在后面说明那样，包含被学习数据Rq和表示被学习数据Rq的分类(或性质：class)的分类数据(或分类标记数据(IOB))。

相似性计算部3对n个学习数据Sq分别包含的各被学习数据Rq，检索该被学习数据Rq与问题数据TD的相似性。

被学习数据Rq和问题数据TD为例如POS(Point Of Sale：销售点)数据、文本数据和多媒体数据等。组合多个处理单位数据，分别构成被学习数据Rq和问题数据TD。

相似性计算部3对多个被学习数据Rq，分别产生表示构成该被学习数据Rq的处理单位数据与构成问题数据TD的处理单位数据的相似性的相似性数据，并将产生的相似性数据输出到相似学习数据产生部4。

例如在实施方式2具体说明相似性数据的产生方法，但下面说明相似性数据产生方法的概要。

相似性计算部3首先对各被学习数据Rq和问题数据TD，每一构成被学习数据Rq的处理单位数据和构成问题数据TD的处理单位数据产生被学习数据Rq和问题数据TD的特征，将其作为预先决定的特征评价坐标系(x、y、z)内规定的距离矢量数据。其次，如下文所述，相似性计算部3根据上述产生的距离矢量数据，产生相似性数据。

相似性计算部3产生例如特征评价坐标系(x、y、z)的3个坐标参数(X、Y、Z)表示的距离矢量数据，并且使

A1：d(x、y)≥0

A2：d(x、y)＝d(y、x)

A3：d(x、y)＝0的必要充分条件为x＝y

A3’：d(x、x)＝0

A4：d(x、y)≤d(x、y)+d(y、z)，

又使

B1：A1、A2、A3、A4

B2：A1、A2、A3’、A4

B3：A1、A2、A3

B4：A1、A2、A3’

B5：A1、A2，

此情况下，使用表示满足上述B1、B2、B3、B4或B5的测度(测量的值)的距离矢量函数d()表现相似性。

或者相似性计算部3利用相对于相似性的提高、距离单调减小的相似性计算式，计算距离，产生表示该距离的所述相似性数据。

这里，B1相当于“距离”。例如，若3维空间，则是欧几里得距离，并且距离为“d(x、y)＝[(x1-y1)²+(x2-y2)²+(x3-y3)²]^1/2”。

相似性计算部3不限于“单词”，对“字母”、“数字”等被学习数据Rq，也能分别产生以规定坐标系表示构成该被学习数据Rq的处理单位数据与构成问题数据TD的处理单位数据的距离的相似性数据。

这时，作为距离计算方法，相似性计算部3能用欧几里得距离或欧几里得平方距离、标准化欧几里得距离、闵可夫斯基距离、或者基于影响函数核法的距离计算评价方法。

相似性计算部3也可对在一个被学习数据Rq或一个问题数据TD中成问题的处理单位数据群中求出的多个距离或相似性，用与距离关联地另行给出的相似性变换式进行变换后，作为表示相似性的矢量加以表现，并利用另行定义的选择函数变换成纯量，将其作为相似性数据。

相似性计算部3还可对具有多个相似性作为要素的表示相似性的距离矢量利用各要素的和、平方和、最大值选择、最小值选择等，进行变换成纯量的计算。

相似性计算部3又可将上述产生的距离数据加非零的正数后取倒数得到的数据作为相似性数据。

相似学习数据选择部

相似学习数据选择部4选择n个被学习数据Rq中相似性计算部3产生的相似性数据表示的相似性超过规定阈值的被学习数据Rq的学习数据SDq(或应为被学习数据SRq)，作为选择的像素信息数学SSDq输出到机器学习机5。

当然，从学习数据SDq选择的相似学习数据SSDq，包含被学习数据Rq和表示被学习数据Rq的分类(或性质)的分类数据PD(或分类数据(IOB))。

分类数据PD对构成被学习数据Rq的处理单位数据，分别示出其分类。该分类在例如被学习数据Rq和问题数据TD为电子邮件时是表示是否麻烦邮件的信息，在被学习数据Rq和问题数据TD为文本数据时是表示“词语或术语”的品词。

机器学习机

机器学习机5使用相似学习数据选择部4选择的相似学习数据SSDq进行问题数据TD的处理。

具体而言，机器学习机5将选择的相似学习数据SSDq中包含的分类数据PD添加到构成问题数据TD的处理单位数据。

机器学习机5使用对构成问题数据TD的处理单位数据添加的分类数据PD进行例如支援矢量机(SVM)法、仿真神经网络法、遗传算法等“有教师学习”处理。

即，机器学习机5使用从学习数据SDq中选择的与问题数据TD的相似性高(包含被学习数据Rq、表示被学习数据Rq的分类的数据PD)的相似学习数据SSDq的分类数据，对构成问题数据TD的处理单位数据进行机器学习。机器学习机5这样使用与问题数据TD的相似性高的相似学习数据SSDq进行学习，所以学习速度和学习精度提高。

机器学习机5中用于学习的法则在SVM中为记述进行数据分离的超平面的参数群，在仿真神经网络中为对神经元的加权矢量。

作为机器学习法，机器学习机5除上述SMV等外，还能用判决列表、基于相似性的方法、简单贝斯法、最大熵法、判决树、神经网络、判别分析等方法。

下面，说明机器学习机5作为一例采用的支援矢量机(SVM)法。例如文献3等已揭示SVM法。如上文所述，SVM法是通过以超平面划分空间对包含2类的数据分类的方法。这时，设2个分类由正例和负例组成，则认为学习数据中的正例与负例的间隔(边际)越大，因开放数据而作错误分类的可能性越小，SVM法是根据求出使该边际最大的超平面并使用该超平面进行分类的方法发现保证最小泛化误差的假说的基于结构风险最小化的方法。

机器学习机5进行的学习处理，基于将问题数据TD在超空间上分离到正回答例集合时使边际最大，从而得到最佳超平面的SVM。

SVM在例如将输入数量(问题数据TD)表示为x时，设下面的式(2)的函数表示假说h。

[式2]

h (x) = sign {w \cdot x + b}

= \{\begin{matrix} + 1, if w \cdot x + b > 0 \\ - 1, else \end{matrix} \cdot \cdot \cdot (2)

式(2)中，w、b是参数。关于输入矢量x的n元与VC元λ的关系，已知下面的辅助定理。

辅助定理：

作为假说h(x)，假定超平面h(x)=sign{w·x+b}。

存在包含全部1个训练数据(本实施方式中为相似学习数据SSDq)x＝x_i(i为1～l的整数)的半径R的球，若对各x_i下面的式(3)成立，则将||w||作为系数w的范数时，对VC元λ而言，下面的式(4)成立。

[式3]

|w·x_i+b|≥1 ...(3)

[式4]

λ≤min([R²‖w‖²]，n)+1…(4)

根据式(4)，有时VC元取决于||w||。

支援矢量机(SVM)法将上述训练数据分成正例和负例，并确定正负例之间的边际最大(即||w||最小)的超平面。

机器学习机5使用例如拉格朗日乘数，将上述确定作为2次优化问题进行处理。

如上文所说明，根据本实施方式的机器学习系统，仅选用n个学习数据SDq中与问题数据TD之间的相似性不低于规定值(最好相似性高)的、在机器学习机5进行问题数据TD的学习处理。

因此，问题数据TD的学习中不用与问题数据TD之间的相似性低的学习数据SDq，已处理数据TR的可靠性高。

其结果，能提高已处理数据TR的可靠性。

根据本实施方式的机器学习系统，除学习处理的精度(可靠性)提高外，还取得减小用于学习的数据量、缩短学习所需时间和机器资源减少的效果。

本实施方式中，作为问题数据TD，输入文本数据，对各单词设定课题，从文本数据内提取希望的单词，作为品词信息、单词尾部拼音、划分词类的数据，并进行成为学习对象的系统的提示。

输入和课题设定不限于此，显然能作各种应用。例如，如图4所示，作为问题数据TD，能指定POS(销售点)数据、音乐、声音、电视节目、电视图像等多媒体数据等；作为课题设定，能作销售额图分析、筛除麻烦邮件或新闻节目等、提取用户希望的视像剪辑等。

本实施方式能用于进行从POS数据提取顾客动向、文本数据或多媒体数据分类和信息提取的系统。

本实施方式的处理单位数据，定义某组成单位，并作为该单位的组合、叠积、合成、序列构成，其中有包含商品种类及其销售额件数、进货日、销售日、年龄、性别、家庭组成等购买顾客信息等的POS信息、邮件文、论文、专利、HP文件、节目表、歌词等文本或者文章或分解到单词的文本、乐谱数据、音乐等的时间系列数据、色谱法分析气体的输出结果等频谱数据、新闻节目或戏剧、视频图像等视频信息等。或者作为所构成的单位，也能添加并使用进行分析的数据和用某些附加手续对数据进行加工的数据。

实施方式2

本发明实施方式2是将实施方式1的机器学习系统用于进行论文等的学习处理的机器学习系统的实施方式。

为了促进理解本发明，说明实施方式2的组成要素与本发明的组成要素的对应关系，仅供参考。

例如，图3所示的问题数据TD对应于本发明的被处理数据，学习数据SDq对应于本发明的学习数据。

图4所示的被学习数据Rq对应于本发明的被学习数据。

实施方式2的“单词”对应于本发明的处理单位数据。

实施方式2的相似性数据BAq对应于本发明的相似性数据。

式(6)所示的指标数据TF(i，j)对应于本发明的指标数据。

例如，图13所示的步骤2的处理对应于本发明的第1工序的处理，步骤3的处理对应于第2工序的处理，步骤5的处理对应于第3工序的处理。

例如，图5所示的相似学习数据选择部11的相似性计算部33对应于本发明的像素数据产生单元，学习数据选择部34对应于本发明的选择单元，图12所示的分类标记数据(IOB)添加部22的IOB判断部72对应于本发明的处理单元。

图3是本发明实施方式2的机器学习装置1的总体组成图。

机器学习装置1具有存储器9、相似学习数据选择部11、标记添加部13、分类标记数据(IOB)判断数据产生部14、标记添加部21、以及IOB添加部22。

机器学习装置1的各组成要素由例如电子电路等硬件构成。后面说明的构成该各组成要素的要素也分别用电子电路等硬件构成。当然，也可通过计算机的CPU(中央处理单元)执行程序，实现图3所示机器学习装置1的各组成要素及其要素的全部或部分。

说明存储在图3所示存储器9并输入到相似学习数据选择部11的学习数据SDq(SD1～SDn)。

图4是说明学习数据SDq(SD1～SDn)的图。

学习数据SDq分别具有各被学习数据Rq和该被学习数据Rq的分类数据IOB。预先使分类数据IOB对对应的被学习数据Rq带有对应关系。

分类标记数据IOB对构成规定术语(例如蛋白质的名称)的首个词表示“B”。分类标记数据IOB对后续于首个词并构成规定术语的词表示“I”。分类标记数据IOB对不构成规定术语的词表示“0”。

实施方式2中，被学习数据Rq和问题数据TD是例如包含蛋白质名称的英文论文数据，例如将空格作为断开字符，文章末段与紧接在其前面的词，将其划分规则取为将有关英文划分为词的规则。

实施方式2中，机器学习装置1能利用n个学习数据SDq。

说明图3所示的各组成要素。

相似学习数据选择部

图5是图3所示像素数据选择部11的组成图。

像素数据选择部11具有第1输入部31、第2输入部32、相似性计算部33、学习数据选择部34、以及输出部35。

第1输入部31从机器学习装置1具有的存储器(未图示)或机器学习装置1的外部输入图4所示的n个学习数据SDq。

第2输入部32从机器学习装置1的外部输入图6所示的问题数据TD。

相似性计算部33对第1输入部31输入的图4所示的n个学习数据SDq内的各被学习数据Rq，计算该被学习数据Rq与问题数据TD的相似性。下面，说明相似性的计算方法。

这里，将与n个学习数据SDq分别对应的n个被学习数据Rq和问题数据TD中包含的单词的种类数表示为k。“i”为1～k的整数，“j”为n个被学习数据Rq和1个问题数据TD中添加的标识符。

相似性计算部33利用下面的式(5)计算指标数据TF(i，j)。

TF(i，j)＝(第i处理单位数据在第j被学习数据(问题数据TD)中出现的次数)/(第j被学习数据Rj(问题数据TD)中包含的单词的总数)…(5)

相似性计算部33利用下面的式(6)确定文章数量DF(i)。

DF(i)＝(n个被学习数据Rq和问题数据TD中第i单词出现的数据的数量)…(6)

相似性计算部33对各被学习数据Rq和问题数据TD利用下面的式(7)、式(8)计算与全部单词i之间的系数w(i，j)。

IDF(i)＝log[(N+1)/DF(i)]…(7)

W(i，j)＝TF(i，j)*IDF(i) …(8)

上述数据频度的指数(对数)IDF(i)随着问题数据TD和被学习数据Rq中包含单词i的数据的数量变多，其值按指数函数减小。

通过将此IDF(i)乘以指标数据TF(i，j)运算系数w(i，j)，不是“a”、“the”、 “this”、 “that”等频繁出现的应提取的固有表现的与该数据的分类无关的单词能几乎不影响相似性。

相似性计算部33对各被学习数据Rq和问题数据TD利用下面的式(9)、式(10)规定矢量D(q)、D(M)。

D(q)=(w(1、q)、w(2、q)、…、w(k、q)) …(9)

D(M)=(w(1、M)、w(2、M)、…、w(k、M)) …(10)

相似性计算部33对全部被学习数据Rq，计算下面的式(11)所示的相似性数据BA(q)。

[式11]

BA (q) = \cos (DM, D (q))

= \frac{{&Sum;}_{t = 1}^{k} w (t, M) \cdot w (t, q)}{\sqrt{{&Sum;}_{t = 1}^{k} w {(t, M)}^{2} \cdot {&Sum;}_{t = 1}^{k} w {(t, q)}^{2}}} \cdot \cdot \cdot (11)

相似性计算部33将相似性数据BA(q)输出到学习数据选择部34。

学习数据选择部34仅选择第1输入部31输入的n个学习数据SDq中从相似性计算部33输入的相似性数据BA(q)超过规定的基准值的学习数据，作为相似学习数据SSDq输出到输出部35。

学习数据选择部34可从第1输入部31输入的n个学习数据SDq中相似性数据BA(q)呈现相似性高的学习数据，仅选择规定数量输出到输出部35。图5所示例子中，学习数据选择部34将学习数据SD1、3、10作为相似学习数据SSDq输出到输出部35。

输出部35将学习数据选择部34输入的相似学习数据SSDq输出到标记添加部13。

标记添加部

如图7所示，标记添加部13对构成从相似学习数据选择部11输入的相似学习数据SSDq中包含的被学习数据Rq的各单词添加其品词数据和后缀(接尾词)数据，产生新的相似学习数据SSDAq。

图8是图3所示的标记添加部13的组成图。

标记添加部13具有输入部41、品词添加部42、后缀添加部43、以及输出部44。

输入部41从图3所示的相似学习数据选择部11输入相似学习数据SSDq，将其输出到品词添加部42。

品词添加部42对从输入部41输入的图7所示的相似学习数据SSDq内的各单词添加表示其品词的品词数据后，将其输出到后缀添加部43。

后缀添加部43如图7所示，对从品词添加部42输入到已添加品词的相似学习数据的各单词添加后缀数据，产生新的相似学习数据SSDAq，并将产生的新相似学习数据SSDAq输出到输出部44。

实施方式2中，后缀添加部43添加3种后缀。

输出部44将从后缀添加部43输入的相似学习数据SSDAq输出到图3所示的分类标记数据(IOB)判断数据产生部15。

IOB判断数据产生部

分类标记数据(IOB)判断数据产生部15使用从标记添加部13输入的图7所示的新相似学习数据SSDAq，产生用于IOB添加部22中的分析的IOB判断数据(素性数据)SP，将其输出到IOB添加部22。

图9是图3所示IOB判断数据产生部15的组成图。

IOB判断数据产生部15具有输入部51、SVM学习部52和输出部53。

输入部51从标记添加部13输入新相似学习数据SSDAq，并将其输出到SVM学习部52。

SVM学习部52为了根据从输入部51输入的图7所示的新相似学习数据SSDAq判断各单词的分类数据IOB是I、O、B中的哪一个，使用例如各单词前后各2个的品词数据和后缀数据，但是以支援矢量机(SVM)方式产生图10所示的IOB判断数据SP。再者，关于分类数据(IOB)，如上文所述，对构成规定的术语(例如蛋白质名称)的首个单词表示“B”，对后续于首个单词并构成上述规定术语的单词表示“I”，对不构成上述规定术语的单词表示“0”。

SVM学习部52在该SVM方式的学习处理中，例如作为核函数，使用多项式核；作为多值分类扩充方法，使用贝尔怀斯法；将分析方向取为文章的头到尾。作为SVM学习部52的学习处理，例如使用实施方式1中说明的SVM。SVM学习部52将IOB判断数据SP输出到输出部53。

输出部53将从SVM学习部52输入的IOB判断数据SP输出到IOB添加部22。

IOB判断数据产生部15可用SVM方式以外的学习方式，例如还能用判决列表方式、基于相似性的方式、简单贝斯方式、最大熵方式、判决树方式、神经网络方式、判别分析方式等。

标记添加部

如图6所示，图3所示的标记添加部21对构成从机器学习装置1的外部输入的问题数据TD的各单词添加其品词数据和后缀数据，产生新的问题数据TDa。

图11是图3中标记添加部21的组成图。

标记添加部21具有例如输入部61、品词添加部62、后缀添加部63、以及输出部64。

输入部61从图3所示机器学习装置1的外部输入问题数据TD，将其输出到品词添加部62。

品词添加部62对从输入部1输入的图6所示的问题数据TD内的各单词添加表示其品词的品词数据后，将其输出到后缀添加部63。

后缀添加部63如图6所示，又对从品词添加部62输入的已添加品词数据的被处理数据的各单词添加其后缀数据，产生新的问题数据TDa后，将其输出到输出部64。

输出部64将从后缀添加部63输入的问题数据TDa输出到图3所述的IOB添加部22。

IOB添加部

图12是图3所示分类标记数据(IOB)添加部22的组成图。

IOB添加部22具有输入部71、IOB判断部72和输出部73。

输入部71将从IOB判断数据产生部15输入的IOB判断数据SP输出到IOB判断部62。

IOB判断部72根据从输入部61输入的IOB判断数据SP，对从标记添加部21输入的图6所示的新问题数据TDa的各单词添加分类标记数据IOB，产生图6所示的已处理数据TR。

形成应解决问题数据TD的问题时，已处理数据TR成为应解决的问题的解。

IOB判断部72将测试结果数据TDa输出到输出部73。

输出部73将从IOB判断部72输入的已处理数据TR输出到机器学习装置1的外部。

下面，说明图3所示机器学习装置1的动作例。

图13是说明该电阻率用的流程图。

步骤1

如图6所示，图3所示的标记添加部21对构成从机器学习装置1的外部输入的问题数据TD的各单词添加其品词数据和后缀数据，产生新的问题数据TDa，将其输出到分类标记数据(IOB)添加部22。

步骤2

图5所示的相似性数据选择部11的相似性计算部33对输入部31输入的图4所示n个学习数据SDq内的各被学习数据Rq，分别计算该被学习数据Rq与问题数据TD的相似性，产生相似性数据BA(q)，将其输出到学习数据选择部34。

步骤3

图5所示的学习数据选择部34仅选择输入的n个学习数据SDq中从相似性计算部33输入的相似性数据BA(q)超过规定基准值的数据，作为选择的相似学习数据SSDq输出到图3所示的标记添加部13。

步骤4

如图7所示，图3所示的标记添加部13对构成从相似学习数据选择部11输入的所选相似学习数据SSDq中包含的被学习数据Rq的各单词添加其品词数据和后缀数据，产生新的相似学习数据SSDAq，将其输出到分类数据(IOB)判断部15。

步骤5

图3所示的IOB判断数据产生部15使用从标记添加部13输入的图7所示的所选相似学习数据SSDAq产生用于IOB添加部22的分析的IOB判断数据(素性数据)SP，将其输出到IOB添加部22。

步骤6

图3所示的IOB添加部22根据步骤5输入的IOB判断数据SP，对从标记添加部21输入的图6所示的新问题数据TDa的各单词添加分类标记数据IOB，产生图6所示的已处理数据TR。

机器学习装置1根据已处理数据TR中添加的分类标记数据IOB，提取问题数据TD内的固有表现(基因名)。

如上文所说明，根据机器学习装置1，仅选择存储器9存储的n个学习数据SDq中与问题数据TD之间的相似性高的数据，并使用所选相似学习数据SSDAq在IOB添加部22进行对新问题数据TDa添加分类标记数据IOB。

其结果，在对新问题数据TDa添加分类标记数据中，不用与问题数据TD之间的相似性低的学习数据SDq，已处理数据TR的可靠性提高。即，能高可靠性(高学习精度)地从已处理数据TR提取希望的固有表现(例如基因名)。

而且，根据实施方式3的机器学习装置1，除处理的可靠性(学习精度)提高外，还取得减小用于学习的数据量、缩短学习所需时间和减少机器资源的效果。

实施方式3

实施方式3是将实施方式1的机器学习系统用于进行对互联网上的内容的访问控制的机器学习系统的实施方式。

图14是说明本发明实施方式3的机器学习系统101用的图。机器学习系统101中，学习数据产生部112下载互联网111上的服务器(未图示)存储的多个Web网页数据W1。

学习数据产生部112按照预先决定的规则在所述下载的Web网页数据W1中添加表示内容的分类(分类)的标记数据TG，产生学习数据(教师数据)SDq，将其输出到相似学习数据选择部115。

作为标记数据TG，表示例如有没有收视限制、限制年龄以下禁用、有暴力表现等学习。

相似学习数据选择部115根据通过互联网111下载的作为被处理数据的Web网页数据W2与学习数据SDq的Web网页数据W1的相似关系，选择相似性满足规定基准的学习数据SDq，作为相似学习数据SSDq输出到机器学习机116。

根据用实施方式1中说明的方法产生的相似性数据判断相似关系。

机器学习机116使用从相似学习数据选择部115输入的所选相似学习数据SSDq，进行Web网页数据W2的学习处理，并将添加标记数据TG的已处理Web网页数据W3输出到高速缓冲存储器118和/或筛选器125。

作为机器学习机116的学习处理，使用例如实施方式1说明的支援矢量机(SVM)法。

高速缓冲存储器118存储已处理Web网页数据W3。

用计算机上工作的用户接口121等输入用户提出的阅览请求时，高速缓存搜索部123从高速缓冲存储器118读出符合该阅览请求的已处理Web网页数据W3，输出到筛选器125。

高速缓存搜索部123在高速缓冲存储器118未存储符合所述阅览请求的已处理Web网页数据W3时，对内容加载器131输出下载请求，请求与该已处理Web网页数据W3对应的Web网页数据。

内容加载器131通过互联网111将所述下载请求发送到服务器。

由此，将所述阅览请求所涉及的Web网页数据W1下载到学习数据产生部112。

筛选器125被编入规定的服务器或用户使用的计算机内起作用，按照预先保持的筛选规则，检验输入的已处理Web网页数据W3的标记数据TG，将满足规定条件的已处理Web网页数据W3去除其标记数据TG后，输出到用户接口121。图14的例子中，并非特别需要高速缓存搜索部123。

如上文所说明，根据实施方式3的机器学习系统101，相似学习数据选择部115中，仅将分类与被处理数据的Web网页数据W2相似的学习数据SDq作为相似学习数据SSDq，输出到相似学习数据选择部115。

其结果，相似学习数据选择部115中，能对Web网页数据W2添加可靠性高的标记数据TG，从而能妥善进行筛选器125的筛选处理。

根据实施方式3的机器学习系统101，除处理的可靠性提高外，还取得减小用于学习的数据量、缩短学习所需时间和减少机器资源的效果。

本发明不限于上述实施方式1～实施方式3。

上述实施方式中，作为本发明的被处理数据和被学习数据Rq，示出基因领域的论文(文献)数据的例子，但也可为其它数据。

例如，本发明也可用于蛋白质表现的提取、固有表现提取(人名、地名等)、模态表现的翻译、格分析、格变换和消除多义性等机器学习处理。

工业上的实用性

本发明可用于使用学习数据将提取规定术语用的分类数据添加到构成被处理数据的处理单位数据的数据处理系统。

Claims

1.一种学习处理方法，用具有被学习数据和表示该被学习数据的分类的分类数据的多个学习数据，对被处理数据进行机器学习处理，其特征在于，具有：

求出表示所述多个学习数据中包含的所述被学习数据与所述被处理数据的相似性的相似性数据的第1工序；

选择所述多个学习数据中所述相似性数据超过规定值的学习数据的第2工序；以及

用所述第2工序中选择的所述学习数据，对所述被处理数据进行机器学习处理的第3工序。

2.如权利要求1中所述的学习处理方法，其特征在于，

所述多个学习数据分别包含被学习数据和表示该被学习数据的分类的分类数据，

所述第3工序中，参照在所述第2工序选择的所述学习数据中包含的分类数据，对所述被处理数据进行机器学习处理。

3.如权利要求1或2中所述的学习处理方法，其特征在于，

所述第1工序中，对每一构成所述被学习数据的处理单位数据和构成所述被处理数据的处理单位数据，预先决定各被学习数据的特征并将其作为特征评价坐标系内规定的距离矢量数据表示，而且根据该距离矢量数据产生所述相似性数据。

4.如权利要求3中所述的学习处理方法，其特征在于，

所述被学习数据是文本数据、所述被处理数据是文本数据，并且

在所述处理单位数据是单词数据的情况下，

所述第1工序中，将所述被学习数据和所述被处理数据中出现的所述单词数据的类型作为所述距离矢量数据的要素，并产生将有关类型的单词数据的出现频度作为所述要素的值的所述距离矢量数据。

5.如权利要求1中所述的学习处理方法，其特征在于，

在所述第1工序中，

确定所述被处理数据和所述被学习数据中包含的不同类型的所述处理单位数据，

对各所述被处理数据和被学习数据，分别确定包含各所述不同类型的所述处理单位数据的数量，将该确定的数量除以构成各所述被处理数据和被学习数据的所述处理单位数据的总数，产生指标数据，并且

根据对各所述被处理数据和所述被学习数据取得的所述不同类型的所述处理单位数据的所述指标数据的组合的模式，产生所述相似性数据。

6.如权利要求5中所述的学习处理方法，其特征在于，

在所述第1工序中，

产生将对所述各被处理数据和所述被学习数据取得的所述不同类型的所述处理单位数据的所述指标数据作为要素的距离矢量数据，并且

根据所述被处理数据的所述距离矢量数据与所述多个被学习数据的所述距离矢量数据的关系，产生所述相似性数据。

7.如权利要求6中所述的学习处理方法，其特征在于，

在所述第1工序中，

随着包含所述确定的类型的所述处理单位数据的所述被处理数据和被学习数据的数量变多，对所述指标数据进行减小该类型的所述处理单位数据的所述指标数据的值的处理，并且

根据实施该处理后的所述指标数据的所述组合模式，产生所述相似性数据。

8.如权利要求7中所述的学习处理方法，其特征在于，

将所述学习数据的数量表示为n，

将所述被学习数据的数量表示为1，

将分别与n个所述学习数据对应的n个所述被学习数据和所述被处理数据中包含的所述处理单位数据的类型数表示为k，

i为1～k的整数，

j为对N个被学习数据和1个被处理数据添加的标识符，

将所述指标数据TF(i、j)表示为：

TF(i、j)＝(第i处理单位数据在第j被学习数据j中出现的次数)/(第j被学习数据中包含的处理单位数据的总数)，

将所述被学习数据和所述被处理数据的数量DF(i)表示为：

DF(i)＝(n个所述被学习数据和所述被处理数据中，第i处理单位数据出现的数据的数量)；

上述情况下，在所述第1工序中，计算所述被学习数据和所述被处理数据的频度的指标或对数IDF(i)

IDF(i)＝log[(N+1)/DF(i)]，

计算系数w(i，j)

w(i，j)＝TF(i，j)*IDF(i)，

将所述N个被学习数据q(q为1～N的整数)的矢量D(q)表示为D(q)＝(w(1、q)、w(2、q)、…、w(k、q))，将所述被处理数据的数量D(M)表示为D(M)＝(w(1、M)、w(2、M)、…、w(k、M))，

对1～n的全部q利用下面的式(1)计算所述相似性数据BA(q)。

[式1]

BA (q) = \cos (D M, D (q))

= \frac{Σ_{t = 1}^{k} w (t, M) \cdot w (t, q)}{\sqrt{Σ_{t = 1}^{k} w {(t, M)}^{2} \cdot Σ_{t = 1}^{k} w {(t, q)}^{2}}} . . . (1)

9.一种程序，用具有被学习数据和表示该被学习数据的分类的分类数据的多个学习数据，对被处理数据进行机器学习处理，其特征在于，具有：

求出表示所述多个学习数据中包含的所述被学习数据与所述被处理数据的相似性的相似性数据的第1步骤；

选择所述多个学习数据中所述相似性数据超过规定值的学习数据的第2步骤；以及

用所述第2步骤中选择的所述学习数据，对所述被处理数据进行机器学习处理的第3步骤。

10.如权利要求9中所述的程序，其特征在于，

所述第3步骤中，参照在所述第2步骤选择的所述学习数据中包含的分类数据，对所述被处理数据进行机器学习处理。

11.如权利要求9或10中所述的学习处理方法，其特征在于，

所述第1步骤中，对每一构成所述被学习数据的处理单位数据和构成被处理数据的处理单位数据，预先决定各被学习数据的特征并将其作为特征评价坐标系内规定的距离矢量数据表示，而且根据该矢量数据产生所述相似性数据。

12.一种学习处理装置，用具有被学习数据和表示被学习数据的分类的分类数据的多个学习数据，对被处理数据进行机器学习处理，其特征在于，具有：

求出表示所述多个学习数据中包含的所述被学习数据与所述被处理数据的相似性的相似性数据的相似性数据产生单元；

选择所述多个学习数据中所述相似性数据超过规定值的学习数据的学习数据选择单；、以及

用所述第2工序中选择的所述学习数据，对所述被处理数据进行机器学习处理的机器学习单元。

13.如权利要求12中所述的学习处理装置，其特征在于，

所述机器学习单元参照在所述学习数据选择单元选择的所述学习数据中包含的分类数据，对所述被处理数据进行机器学习处理。

14.如权利要求12或13中所述的学习处理装置，其特征在于，

所述相似性数据产生单元对每一构成所述被学习数据的处理单位数据和构成所述被处理数据的处理单位数据，预先决定各被学习数据的特征并将其作为特征评价坐标系内规定的距离矢量数据表示，而且根据该距离矢量数据产生所述相似性数据。