CN103460206A - 注目评价对象提取装置及程序 - Google Patents

注目评价对象提取装置及程序 Download PDF

Info

Publication number
CN103460206A
CN103460206A CN2012800137643A CN201280013764A CN103460206A CN 103460206 A CN103460206 A CN 103460206A CN 2012800137643 A CN2012800137643 A CN 2012800137643A CN 201280013764 A CN201280013764 A CN 201280013764A CN 103460206 A CN103460206 A CN 103460206A
Authority
CN
China
Prior art keywords
mentioned
evaluation object
project
classification
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012800137643A
Other languages
English (en)
Other versions
CN103460206B (zh
Inventor
樱井茂明
牧野恭子
铃木裕之
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN103460206A publication Critical patent/CN103460206A/zh
Application granted granted Critical
Publication of CN103460206B publication Critical patent/CN103460206B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的实施方式涉及注目评价对象提取装置及程序。注目评价对象提取装置具备项目分配单元、类别判别单元、细目生成单元及模式发现单元。上述项目分配单元按所收集的每个文本信息,提取多个项目,并且在存在与评价对象表现或关联表现一致的项目时,将该评价对象表现或该关联表现的评价对象表现作为评价对象项目而分配给该文本信息。上述类别判别单元根据与上述评价对象项目相关联的上述数值信息的变化来判别类别,将该类别分配给该文本信息。上述细目生成单元按每个上述文本信息,来生成包含上述评价对象项目、上述各项目及上述类别的带类别细目。上述模式发现单元从上述细目的集合中发现表示特征性的项目的组合的上述模式。

Description

注目评价对象提取装置及程序
技术领域
本发明的实施方式涉及注目评价对象提取装置及程序。
背景技术
在计算机及网络环境中,能够收集针对特定对象的数值性的时间序列数据,并且能够取得针对特定对象的文本性的时间序列数据。在这种环境下,一直在研究如下方法:根据数值性的时间序列数据和文本性的时间序列数据,发现通过文本性的时间序列数据来说明数值性的时间序列数据的变动的模式,并且预测下一时期的应注目的评价对象。
例如,在证券市场中,一直在研究如下方法:通过将股价视为数值性的时间序列数据、将与品种相关联的新闻报导视为文本性的时间序列数据,由此发现说明股价的变动的从新闻报导中提取的模式,并且将下一时期的应注目的品种通知利用者,支援利用者的与品种交易有关的想法决定。
作为预测评价对象的方法,例如提出有两个方法。
第一个方法为以下的方式:通过明示地赋予的属性值来事先对评价对象赋予特征,生成基于与评价对象的产生有关的事件的频度的时间序列数据,并计算评价对象的重要度或者评价对象的属性值的重要度,由此在特定的问题领域中提取重要的评价对象。
另一方面,第二个方法为以下的方式:使评价对象与特定词语的出现次数的随时间变化对应,而以能够视觉地掌握评价对象与特定词语之间的关系的方式显示给利用者。
现有技术文献
专利文献
专利文献1:日本特开2002-207755号公报
专利文献2:日本特开2001-216311号公报
发明内容
发明要解决的课题
但是,以上那样的两个方法,虽然通常没有问题,但根据本发明人的研究,存在以下那样的不良情况。
例如,第一个方法为,由于通过明示的属性值来事先对评价对象赋予特征,因此存在不能够处理未事先赋予特征那样的评价对象的不良情况。此外,第一个方法还存在如下的不良情况,即与评价对象相关联的时间序列数据被限定为与评价对象的产生有关的事件的时间序列数据。
另一方面,第二个方法存在如的不良情况:即使能够视觉地掌握评价对象与特定词语之间的关系,也不能够自动地发现能够说明特定的关系产生的情况那样的模式。
本发明要解决的课题在于提供注目评价对象提取装置及程序,能够处理未事先赋予特征的评价对象,时间序列数据未被限定于与评价对象的产生有关的时间序列数据,且能够自动地发现模式。
用于解决课题的手段
实施方式的注目评价对象提取装置为如下装置,能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现上述模式。
上述注目评价对象提取装置具备文本收集单元、数值收集单元、对象表现存放单元、项目分配单元、类别判别单元、细目生成单元、模式发现单元及模式存放单元。
上述文本收集单元收集上述多个文本信息。
上述数值收集单元收集与上述各评价对象个别地相关联的数值信息。
上述对象表现存放单元将个别地表示上述各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而存放。
上述项目分配单元为,按上述所收集的每个文本信息,提取多个项目,并且在该各项目中存在与上述评价对象表现或上述关联表现一致的项目时,将该评价对象表现或在上述对象表现存放单元内与该关联表现建立对应的评价对象表现作为评价对象项目而分配给该文本信息。
上述类别判别单元为,根据与作为上述评价对象项目的评价对象表现所表示的评价对象相关联的上述数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息。
上述细目生成单元为,按上述所收集的每个文本信息,生成包含上述所分配的评价对象项目、上述所提取的各项目及上述所分配的类别的带类别细目。
上述模式发现单元从上述细目的集合中发现表示特征性的项目的组合的上述模式。
上述模式存放单元存放上述所发现的模式。
附图说明
图1是模式地表示第一实施方式的注目评价对象提取装置的构成的框图。
图2是用于说明该实施方式的动作的流程图。
图3是表示该实施方式的数值时间序列数据的一例的模式图。
图4是表示该实施方式的文本时间序列数据的一例的模式图。
图5是表示该实施方式的项目集合的一例的模式图。
图6是表示该实施方式的评价对象知识的一例的模式图。
图7是表示该实施方式的数值时间序列数据的一例的模式图。
图8是表示该实施方式的数值时间序列数据的一例的模式图。
图9是表示该实施方式的类别的分配结果的一例的模式图。
图10是表示该实施方式的带类别的细目的一例的模式图。
图11是表示该实施方式的模式的一例的模式图。
图12是表示该实施方式的模式的一例的模式图。
图13是模式地表示第二实施方式的注目评价对象提取装置的构成的框图。
图14是用于说明该实施方式的动作的流程图。
图15是表示该实施方式的文本时间序列数据的一例的模式图。
图16是表示该实施方式的项目集合的一例的模式图。
图17是表示该实施方式的文本时间序列数据的评价结果的一例的模式图。
具体实施方式
以下,使用附图对各实施方式进行说明。另外,以下的注目评价对象提取装置能够通过硬件构成、或者硬件资源与软件的组合构成中的任一种构成来实施。如图1及图13所示,作为组合构成的软件,使用预先从网络或非临时的计算机可读取存储介质(non-transitory computer-readable storagemedium)M安装到计算机中、用于通过该计算机的处理器执行来使该计算机实现注目评价对象提取装置的功能的程序。
〈第一实施方式〉
图1是模式地表示第一实施方式的注目评价对象提取装置的构成的框图。该注目评价对象提取装置为如下的装置:能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现该模式。
具体地,注目评价对象提取装置具备文本时间序列收集部B1、项目提取部B2、评价对象知识存放部B3、数值时间序列收集部B4、类别判别部B5、细目生成部B6、模式发现部B7、模式存放部B8及评价对象提取部B9。即,注目评价对象提取装置为,能够在由评价对象提取部B9提取应注目的评价对象之前,由各部B1~B8发现模式。
此处,文本时间序列收集部(文本收集单元)B1具有收集与沿时间序列赋予的多个评价对象相关联的多个文本信息的功能。此处,“文本信息”也可以称为“文本时间序列数据”。
项目提取部(项目分配单元)B2具有如下功能:按由文本时间序列收集部B1收集的每个文本信息,提取多个项目,并且在该各项目中存在与评价对象知识存放部B3内的评价对象表现或关联表现一致的项目时,将该评价对象表现或在评价对象知识存放部B3内与该关联表现建立对应的评价对象表现作为评价对象项目而分配给该文本信息。
评价对象知识存放部(对象表现存放单元)B3是能够对于各部B1、B2、B4~B7、B9进行读出/写入的存储装置,将个别地表示各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而存放。例如,评价对象知识存放部B3为,通过控制部(未图示)而预先写入有评价对象表现与关联表现被建立对应地记述的评价对象知识。另外,评价对象知识存放部B3,可以为在起动时从控制部写入在注目评价对象提取装置的程序的一部分所预先记述的评价对象知识的方式,也可以为通过用户的操作而写入所记述的评价对象知识的方式。
数值时间序列收集部(数值收集单元)B4具有收集与各评价对象个别地相关联的数值信息的功能。此处,“数值信息”也可以称为“与沿时间序列赋予的各评价对象个别地相关联的数值信息”,还可以称为“数值时间序列数据”。此外,也可以将包含“文本时间序列数据”和“数值时间序列数据”的时间序列数据称为“复合事件时间序列数据”。
类别判别部B5具有如下功能:根据与由项目提取部B2分配的作为评价对象项目的评价对象表现所表示的评价对象相关联的数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息。
细目生成部B6具有如下功能:按由文本时间序列收集部B1收集的每个文本信息,生成包含由项目提取部B2分配的评价对象项目、由项目提取部B2提取的各项目及由类别判别部B5分配的类别的细目。
模式发现部B7具有如下功能:从由细目生成部B6生成的细目的集合中发现表示特征性的项目的组合的模式。另外,“特征性的项目的组合”也可以称为“频度高的项目的组合”或“频繁出现的项目的组合”。此外,所发现的模式通过模式发现部B7写入模式存放部B8。
模式存放部B8是能够对于各部B1、B2、B4~B7、B9进行读出/写入的存储装置,存放由模式发现部B7发现的模式。另外,作为评价对象知识存放部B3及模式存放部B8,可以使用相同存储装置内的不同的存储区域,也可以使用不同的存储装置。
评价对象提取部B9具有如下功能:通过将模式存放部B8内的模式应用于根据新收集的文本信息而生成的细目,由此提取应注目的评价对象。
接着,使用图2的流程图来说明如以上那样构成的注目评价对象提取装置的动作。在以下的说明中,采用新闻标题作为文本时间序列数据(文本信息),采用股价作为数值时间序列数据(数值信息)。此外,采用公司名(股价品种名)作为评价对象。
在步骤Sa1中,数值时间序列收集部B4通过互联网线路等,从发布股价信息的Web站点收集表示每个评价对象的股价信息的数值时间序列数据。作为数值时间序列数据,例如如图3所示,使用包含品种代码、日期、开盘价的数据。但是,数值时间序列数据仅由股市营业的日期的数据构成,不包含与股市不营业的日期有关的数据。
在步骤Sa2中,文本时间序列收集部B1通过互联网线路等,从发布新闻标题的Web站点收集包含新闻标题的文本时间序列数据。作为文本时间序列数据,例如如图4所示,使用包含新闻的发布日和新闻标题的数据。
在步骤Sa3中,文本时间序列收集部B1从收集到的文本时间序列数据中取出一个文本。此时,如果存在取出的文本,则将处理转至步骤Sa4,而在不存在取出的文本的情况下,将处理转至步骤Sa11。因此,在收集有图4所示的文本时间序列数据的情况下,在时间序列数据Tn被取出紧后的处理中,在实施本步骤时,会转至步骤Sa11。
在步骤Sa4中,项目提取部B2将代表所取出的文本的各表现提取为项目。例如,项目提取部B2为,通过对文本实施语态素分析,来确定各表现的词类,将作为其词类而被赋予了名词的表现提取为项目。因此,在对文本编号T1的文本实施语态素分析而提取了名词表现的情况下,“a公司”、“会计”、“预约”、“软件”、“提前”、“销售”、“开始”这种表现被提取为项目。通过对图4所示的各文本实施同样的处理,能够根据各文本来生成图5所示的项目集合。
在步骤Sa5中,从项目提取部B2提取的项目的集合中取出一个项目。此时,在存在取出的项目的情况下,转至步骤Sa6,而在不存在取出的项目的情况下,转至步骤Sa7。因此,在T1的情况下,在“开始”的项目被取出紧后的处理中,在实施了本步骤的情况下,向步骤Sa7移动。
在步骤Sa6中,项目提取部B2通过参照评价对象知识存放部B3中所存放的评价对象知识,来判定该项目是否与评价对象相关联。
项目提取部B2在判定为是评价对象的情况下,向该文本分配评价对象项目。例如,在评价对象知识存放部B3中存放有图6所示的由评价对象表现和关联表现构成的评价对象知识。此时,从文本编号T1的文本取出项目“a公司”。以下,“文本编号T○的文本”也称为“文本T○”(尾标○表示任意的数字)。同样,“项目集合编号I○的项目集合”也称为“项目集合I○”。项目提取部B2通过参照评价对象知识的关联表现,能够判定为该项目被登记为关联表现。因此,项目提取部B2对于文本T1,将与关联表现对应的评价对象表现即“A公司”分配给评价对象项目。
接着,从文本T7取出项目“鸡肉”。项目提取部B2通过参照评价对象知识的关联表现,能够识别出该项目在多处被登记为关联表现。因此,项目提取部B2对于文本编号T7的文本,将与各个关联表现对应的评价对象表现即“D1公司”、“D2公司”、“D3公司”分配给评价对象项目。
另一方面,在文本T1的项目“公司”、文本T7的项目“原产地”的情况下,不存在对应的关联表现,因此不向各个文本分配新的评价对象项目,而使处理返回步骤Sa5。
在步骤Sa7中,类别判别部B5取出一个被分配给文本的评价对象项目。此时,如果存在取出的评价对象项目,则转至步骤Sa8。另一方面,在不存在取出的评价对象项目的情况下,转至步骤Sa9。例如,如果对于项目集合I1仅分配有评价对象项目“A公司”,则在取出了“A公司”紧后的处理中,转至步骤Sa9。
在步骤Sa8中,类别判别部B5通过参照与所取出的评价对象项目对应的数值时间序列数据,来计算成为类别判定的基准的变动率。此处,类别判别部B5例如根据式(1),来计算与该评价对象项目对应的变动率。在式(1)中,it为评价对象项目,d为包含评价对象的文本的发布日,dy为从发布日d起y日后的营业日,value()为返回评价对象项目的指定日的股价的开盘价的函数。但是,在d并非营业日的情况下,将其设为一天前的营业日。
[式1]
f ( it , d ) = value ( it , dy ) - value ( it , d ) value ( it , d ) · · · ( 1 )
此处,对于y被赋予2的情况,尝试计算变动率。从项目集合I1中取出“A公司”,并如图3所示那样赋予与“A公司”对应的数值时间序列数据。此时,作为与项目集合I1对应的文本T1的发布日,能够得到2010/4/26,并且作为dy能够得到2010/4/28。通过参照图3,value(A公司,2010/4/26)、value(A公司,2010/4/28)分别被赋予902、886,因此能够得到f(A公司,2010/4/26)=(886-902)/902=-0.01774。接着,尝试考虑从项目集合In中取出“K公司”、并如图7所示那样赋予与“K公司”对应的数值时间序列数据的情况。此时,作为与项目集合In对应的文本Tn的发布日,能够得到2010/05/27,并且作为y天后的营业日dy能够得到2010/5/31。通过参照图7,value(K公司,2010/5/27)、value(K公司,2010/5/31)被赋予802、816,因此能够得到f(K公司,2010/5/27)=(816-802)/802=0.05923。同样,在从项目集合In中取出“L公司”、并如图8所示那样赋予与“L公司”对应的数值时间序列数据的情况下,被赋予f(L公司,2010/5/27)=(926-914)/914=0.01313。
在步骤Sa9中,类别判别部B5计算将对与文本对应的各项目计算出的变动率进行了综合的评价值,按照该评价值的值来判别类别。此处,类别判别部B5例如根据式(2)来计算变动率的平均值即平均变动率,将该平均变动率作为与文本对应的评价值。在式(2)中,I为与文本对应的项目的集合,||为对构成项目集合的项目的个数进行计算的运算。但是,在项目集合为空集的情况下,不能够计算出该平均变动率。
[式2]
1 | I | · Σ it ∈ t f ( it , d ) · · · ( 2 )
此外,将该平均值为预先指定的类别判别阈值Th(>0)乘以-1而得到的值-Th以下的情况判定为“下降”,将Th以上的情况判定为“上升”,将大于-Th小于Th的情况判定为“平衡”。但是,在不能够计算出平均变动率的情况下,不分配类别。
例如,在文本T1的情况下,仅分配有一个项目“A公司”,因此平均变动率被赋予-0.01774。此外,在文本Tn的情况下,分配有“K公司”、“L公司”这两个项目,因此各项目的平均值即(0.05923+0.01313)/2=0.03618被赋予作为平均变动率。此处,如果类别判别阈值被赋予0.015,则对于文本T1、Tn分别分配有类别“下降”、“上升”。另一方面,文本T2、T8不包含项目,因此不能够计算平均变动率,因此未分配类别。
如以上那样,类别判别部B5通过对各文本判别类别、并分配该类别,由此如图9所示,能够将对各文本的类别的分配结果作为表示文本与类别之间的对应关系的数据而得到。但是,在未分配类别的情况下,记载有斜线“/”。
在步骤Sa10中,细目生成部B6通过根据带类别的各文本、使从该文本中提取的项目及评价对象项目与所分配的类别组合,由此生成细目。因此,根据图4的文本会如图10所示那样生成带类别的细目。
在步骤Sa11中,模式发现部B7从分配给文本的类别中取出一个类别。此时,在存在取出的类别的情况下,将处理转至步骤Sa12,而在不存在取出的类别的情况下,结束本算法。此外,在本实施方式中,仅根据类别“上升”、“下降”来尝试模式的发现。
在步骤Sa12中,模式发现部B7提取由所指定的类别构成的细目。此外,模式发现部B7通过参考文献R.Agrawal and R.Srikant,“Fast Algorithms forMining Association Rules”,20th VLDB Conference(1994)所记载的算法,发现所有成为与模式的频度有关的阈值即最小支持度以上的频繁出现的项目的组合即模式,并作为与所选择的类别对应的模式而存放到模式存放部B8。
模式发现部B7例如通过利用本算法,而对于图10所示的细目内的类别“上升”,如“I公司”和“服务器”那样地制作各项目的组合作为模式候补,并将该制作的模式候补中频度比基准值高的模式候补保留为模式。由此,模式发现部B7能够如图11所示那样发现表示特征性的项目的组合的模式,并存放到模式存放部B8。此外,对于类别“下降”,也能够同样地根据模式候补的频度来如图12所示那样发现模式,并存放到模式存放部B8。
评价对象提取部B9通过将模式存放部B8内的模式应用于根据新收集的文本时间序列数据来生成的细目,由此提取应注目的评价对象。
如上述那样,根据本实施方式,按所收集的每个文本信息,提取多个项目,并且在该各项目中存在与评价对象表现或关联表现一致的项目时,将该评价对象表现或与该关联表现建立了对应的评价对象表现作为评价对象项目而分配给该文本信息,判别与评价对象项目所关联的数值信息的变化相关联的类别,按每个文本信息,生成包含评价对象项目、各项目及类别的带类别细目,从细目的集合中发现表示特征性的项目的组合的模式,通过该构成,即使在文本信息与数值信息之间未记述明确的对应关系,也能够使文本信息与数值信息适当地建立关联,能够从文本信息中提取能够说明数值信息的变化的模式。
作为补充,根据本实施方式,能够处理未事先赋予特征的评价对象,时间序列数据不限定于与评价对象的产生有关的数据,且能够自动地发现模式。
此外,在以往的第二个方法中,还存在不能够根据所发现的模式来预测产生特定关系的应注目的评价对象的不良情况。对此,根据本实施方式,由评价对象提取部B9根据所发现的模式来评价新的文本信息,由此能够预测(提取)应注目的评价对象,作为产生数值信息的变化的可能性较高的评价对象。
〈第二实施方式〉
图13是模式地表示第二实施方式的注目评价对象提取装置的构成的框图,对于与图1相同的部分,省略其详细的说明,此处主要对不同的部分进行说明。
即,第二实施方式是第一实施方式的具体例,成为评价对象提取部B9具备模式评价部B10及注目评价对象提取部B11的方式。随此,细目生成部B6具有如下功能:在模式存放部B8中存放了模式之后,按由文本时间序列收集部B1新收集的每个文本信息,生成包含由项目提取部B2分配的评价对象项目和所提取的各项目、但不包含上述类别的无类别细目。另外,“无类别细目”只要能够与在模式发现中使用的带类别细目(模式发现用细目)相区别,则可以使用任意的名称。因此,“无类别细目”例如可以简称为“细目”,也可以称为“无类别的细目”、“注目评价对象提取用细目”或“新细目”等。
此处,模式评价部(模式评价单元)B10具有如下功能:将模式存放部B8内的模式应用于该无类别细目,并评价该无类别细目是否包含该模式。此处,“评价”也可以称为“判定”。
注目评价对象提取部(注目评价对象提取单元)B11具有如下功能:在评价的结果为包含模式的情况下,对与该无类别细目内的评价对象项目建立了关联的频度相加,根据该频度的相加结果,将与该频度建立了关联的评价对象项目提取为应注目的评价对象。
接着,使用图14的流程图来说明如以上那样构成的注目评价对象提取装置的动作。
在步骤Sb1中,文本时间序列收集部B1通过互联网线路等,从发布新闻标题的Web站点收集包含新闻标题的文本时间序列数据。作为文本时间序列数据,例如如图15所示,使用包含新闻的发布日和新闻标题的数据。但是,本实施方式的文本时间序列数据的发布日,是模式发现部B7在模式的发现中使用的文本时间序列数据的收集日以后的日期。
在步骤Sb2中,文本时间序列收集部B1从收集的文本中取出一个文本。此时,在存在取出的文本的情况下,转至步骤Sb3,而在不存在取出的文本的情况下,转至步骤Sb9。例如,在收集有图15所示的文本的情况下,在文本Em被取出紧后的处理中,转至步骤Sb9。
在步骤Sb3中,项目提取部B2通过对所取出的文本实施与图2的步骤Sa4同样的处理,来提取代表文本的项目。因此,从文本E1中提取“i公司”、“中”、“端”、“服务器”、“声音”、“识别”、“功能”、“搭载”这样的项目。
在步骤Sb4中,项目提取部B2从提取的项目中按顺序取出一个项目。此时,在存在取出的项目的情况下,转至步骤Sb5,而在不存在取出的项目的情况下,转至步骤Sb6。例如,在文本E1的情况下,在项目“搭载”被提取紧后的处理中,转至步骤Sb6。
在步骤Sb5中,项目提取部B2通过对所取出的项目实施与图2的步骤Sa6同样的处理,来评价是否存在与取出的项目对应的评价对象项目。在存在的情况下,项目提取部B2将该评价对象项目分配给该文本。
在步骤Sb6中,细目生成部B6对于各文本,生成由从文本中提取的项目和与文本对应的评价对象文本形成的细目。本处理与图2的步骤Sa10的处理类似,但与图2的步骤Sa10的处理的情况不同,对于各细目未分配类别。因此,根据图15所示的文本,能够如图16所示那样生成无类别的细目。
在步骤Sb7中,模式评价部B10从模式存放部B8所存放的模式中按顺序取出一个模式。此时,在存在取出的模式的情况下,将处理转至步骤Sb8,而在不存在取出的模式的情况下,将处理返回步骤Sb2。
在步骤Sb8中,模式评价部B10将所取出的无类别的细目与模式进行比较,评价构成该无类别的细目的项目是否包含构成该模式的项目。此时,如果包含该模式,则参照与该模式对应的类别,将与该细目对应的每个类别的评价对象项目的频度加1。
例如,在选择了细目F1和模式up4的情况下,构成模式up4的项目“I公司”、“服务器”、“搭载”包含在构成细目F1的项目中。此外,up4的类别被赋予有“上升”,因此将评价对象项目“I公司”、类别“上升”的值加1。
此外,在选择了细目F3和模式dw5的情况下,构成模式dw5的“原产地”、“伪装”包含在构成细目F3的项目中,因此将评价对象项目“D2公司”、类别“下降”的频度加1。
同样,在选择了细目Fm和模式up8的情况下,将评价对象项目“D3公司”、类别“上升”及评价对象项目“J公司”、类别“上升”的频度加1。
通过对所有的细目和模式如此地进行模式的评价,由此能够如图17所示那样得到评价对象项目与频度之间的关系。
在步骤Sb9中,注目评价对象提取部B11根据通过按照各模式来评价各细目而计算出的频度,来决定注目评价对象而输出。
例如,能够设定提取的注目对象的个数,将频度高的评价对象项目按顺序输出该个数的量。此处,对于图17所示的评价对象项目与频度之间的关系,在将高位的3个提取为注目对象的情况下,通过按每个类别来参照频度,能够将“D3公司”、“D2公司”、“I公司”这样的评价对象项目作为注目评价对象输出。另外,注目评价对象提取部B11并不限于提取高位的评价对象的情况,也可以提取频度比基准值高的评价对象。
通过如以上那样,由此基于技术方案2所记载的根据复合事件时间序列的模式的发现及注目评价对象的提取装置,能够决定注目评价对象。
第二实施方式的注目评价对象提取装置并非限定于第二实施方式,例如能够使用为如以下的[1]~[6]所示那样的变形例。
[1]例如,在图2的步骤Sa11及步骤Sa12中,选择类别,并根据基于类别而分割的细目的部分集合来发现模式。不限于此,图2的步骤Sa11及步骤Sa12,通过利用参考文献:樱井茂明著,“根据带类别项目集合的频繁出现模式的发现”,The24th Annual Conference of the Japanese Society for ArtificialIntelligence,2010,2A3-4,<https://kaigi.org/jsai/webprogram/2010/pdf/10.pdf>所记载的算法,来执行基于FP-tree及FP-growth的处理,能够不分割细目地根据带类别的细目来发现模式。
作为补充,模式发现部B7通过本算法,生成将带类别的细目所包含的项目集合存放为树结构的形式的FP-tree。另外,在面向带类别项目集合的FP-tree中,在FP-tree的头部追加有存放与模式对应的模式类别的区域、识别模式是特征模式还是可能性模式的标志、以及表示模式的特征支持度是否为最小支持度以上的标志。在FP-tree的生成后,模式发现部B7通过执行本算法的FP-growth,来从FP-tree生成按照特定的项目来赋予条件的项目部分集合,并根据项目部分集合进一步生成FP-tree。模式发现部B7通过根据本算法来递归地反复进行该FP-tree的生成和项目部分集合的生成,由此发现模式。
[2]在图2的步骤Sa9中,利用一个类别判别阈值而分割为三个类别,但还能够通过利用多个类别判别阈值来分割为4个以上的类别。
[3]在图14的步骤Sb8中,对于与包含模式的细目对应的所有的评价对象项目,将其频度加1,但在从一个细目中提取多个评价对象项目的情况下,还能够对将评价对象项目的个数作为权重而归一化了的值相加。
[4]对于在模式和细目的双方中出现的评价对象项目,还能够赋予比仅在细目中出现的评价对象项目高的权重,而将频度相加。
[5]在图14的步骤Sb9中,根据每个类别的频度来决定注目评价对象,但还能够通过将每个类别的频度相加来计算综合了的评价值,由此使用该评价值来决定注目评价对象。
[6]在图14中,在处理了所有的细目之后,输出了注目评价对象,但还能够按每个细目进行模式的评价,将与包含模式的细目对应的评价对象项目输出为注目对象。
如上述那样,根据本实施方式,将模式应用于该无类别细目,并评价该无类别细目是否包含该模式,在评价的结果为包含模式的情况下,将与该无类别细目内的评价对象项目建立了关联的频度相加,并根据该频度的相加结果来将与该频度建立了关联的评价对象项目提取为应注目的评价对象,通过该构成,能够得到与第一实施方式同样的效果。
此外,与模式发现用的细目不同,生成不包含类别的无类别细目,因此能够高速地生成细目。
根据以上说明的至少一个实施方式,按所收集的每个文本信息,提取多个项目,并且在该各项目中存在与评价对象表现或关联表现一致的项目时,将该评价对象表现或与该关联表现建立了对应的评价对象表现作为评价对象项目而分配给该文本信息,判别与评价对象项目所关联的数值信息的变化相关联的类别,按每个文本信息来生成包含评价对象项目、各项目及类别的带类别细目,并从细目的集合中发现表示特征性的项目的组合的模式,通过该构成,能够处理未事先赋予特征的评价对象,时间序列数据不限定于与评价对象的产生有关的数据,并且能够自动地发现模式。
另外,上述各实施方式所记载的方法,还能够作为能够使计算机执行的程序,存放在磁盘(软(注册商标)盘、硬盘等)、光盘(CD-ROM、DVD等)、光磁盘(MO)以及半导体存储器等存储介质中而发行。
此外,作为该存储介质,只要是能够存储程序且计算机能够读取的存储介质,其存储形式可以为任何的方式。
此外,基于从存储介质安装到计算机中的程序的指示而在计算机上运行的OS(操作系统)、数据库管理软件、网络软件等MW(中间软件)等,也可以执行用于实现上述实施方式的各处理的一部分。
进一步,各实施方式的存储介质,并不限于与计算机相独立的介质,还包含下载通过LAN、互联网等传输的程序而存储或临时存储的存储介质。
此外,存储介质并不限于一个,由多个介质执行上述各实施方式的处理的情况也包含于本发明的存储介质,介质构成可以为任何的构成。
另外,各实施方式的计算机为,基于存储介质所存储的程序来执行上述各实施方式的各处理,也可以是由一台个人计算机等构成的装置、网络连接了多个装置的系统等任何的构成。
此外,各实施方式的计算机,并不限于个人计算机,还包含信息处理设备所包含的运算处理装置、微型计算机等,是能够通过程序来实现本发明的功能的设备、装置的总称。
另外,说明了本发明的机构实施方式,但这些实施方式是作为例子而提示的,并不意图限定发明的范围。这些新的实施方式能够以其他各种方式来实施,在不脱离发明主旨的范围内能够进行各种省略、置换和变更。这些实施方式和其变形包含在发明的范围或主旨内,并且包含在专利请求范围所记载的发明和与其等同的范围内。

Claims (3)

1.一种注目评价对象提取装置,能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现上述模式,其特征在于,具备:
文本收集单元(B1),收集上述多个文本信息;
数值收集单元(B4),收集与上述各评价对象个别地相关联的数值信息;
对象表现存放单元(B3),将个别地表示上述各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而存放;
项目分配单元(B2),按上述所收集的每个文本信息,提取多个项目,并且在该各项目中存在与上述评价对象表现或上述关联表现一致的项目时,将该评价对象表现或在上述对象表现存放单元内与该关联表现建立了对应的评价对象表现作为评价对象项目而分配给该文本信息;
类别判别单元(B5),根据与作为上述评价对象项目的评价对象表现所表示的评价对象相关联的上述数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息;
细目生成单元(B6),按上述所收集的每个文本信息,生成包含上述所分配的评价对象项目、上述所提取的各项目及上述所分配的类别的带类别细目;
模式发现单元(B7),从上述细目的集合中发现表示特征性的项目的组合的上述模式;以及
模式存放单元(B8),存放上述所发现的模式。
2.如权利要求1所述的注目评价对象提取装置,其特征在于,进一步具备:
在上述模式存放单元中存放了模式之后,按由上述文本收集单元新收集的每个文本信息,生成包含由上述项目分配单元分配的评价对象项目和所提取的各项目、但不包含上述类别的无类别细目的单元(B6);
模式评价单元(B10),将上述模式存放单元内的模式应用于上述无类别细目,评价该无类别细目是否包含该模式;以及
注目评价对象提取单元(B11),在上述评价的结果为包含上述模式的情况下,将与该无类别细目内的评价对象项目建立了关联的频度相加,根据上述频度的相加结果来将与该频度建立了关联的评价对象项目提取为上述应注目的评价对象。
3.一种程序,由注目评价对象提取装置的处理器执行,存储在非临时的计算机能够读取的存储介质(M)中,该注目评价对象提取装置具备对象表现存放单元(B3)及模式存放单元(B8),能够在根据模式从与沿时间序列赋予的多个评价对象相关联的多个文本信息中提取应注目的评价对象之前,发现上述模式,其特征在于,具备:
第一程序代码,使上述处理器执行收集上述多个文本信息的处理(B1);
第二程序代码,使上述处理器执行收集与上述各评价对象个别地相关联的数值信息的处理(B4);
第三程序代码,使上述处理器执行将个别地表示上述各评价对象的评价对象表现与表示与该各评价对象个别地相关联的对象的关联表现建立对应而写入上述对象表现存放单元(B3)的处理;
第四程序代码,使上述处理器执行按上述所收集的每个文本信息,提取多个项目,并且在该各项目中存在与上述评价对象表现或上述关联表现一致的项目时,将该评价对象表现或在上述对象表现存放单元内与该关联表现建立了对应的评价对象表现作为评价对象项目而分配给该文本信息的处理(B2);
第五程序代码,使上述处理器执行根据与作为上述评价对象项目的评价对象表现所表示的评价对象相关联的上述数值信息,来判别与该数值信息的变化相关联的类别,将该类别分配给分配有该评价对象项目的文本信息的处理(B5);
第六程序代码,使上述处理器执行按上述所收集的每个文本信息,生成包含上述所分配的评价对象项目、上述所提取的各项目及上述所分配的类别的带类别细目的处理(B6);以及
第七程序代码,使上述处理器执行从上述细目的集合中发现表示特征性的项目的组合的上述模式,将该发现的模式写入上述模式存放单元的处理(B7)。
CN201280013764.3A 2011-06-07 2012-05-31 注目评价对象提取装置及方法 Expired - Fee Related CN103460206B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011127432A JP5254402B2 (ja) 2011-06-07 2011-06-07 注目評価対象抽出装置及びプログラム
JP2011-127432 2011-06-07
PCT/JP2012/064189 WO2012169432A1 (ja) 2011-06-07 2012-05-31 注目評価対象抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
CN103460206A true CN103460206A (zh) 2013-12-18
CN103460206B CN103460206B (zh) 2016-10-12

Family

ID=47295998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280013764.3A Expired - Fee Related CN103460206B (zh) 2011-06-07 2012-05-31 注目评价对象提取装置及方法

Country Status (5)

Country Link
US (1) US10769534B2 (zh)
EP (1) EP2720153A4 (zh)
JP (1) JP5254402B2 (zh)
CN (1) CN103460206B (zh)
WO (1) WO2012169432A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027023A (zh) * 2019-12-11 2020-04-17 重庆锐云科技有限公司 一种基于频繁分析的房产在线开盘检测方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101540322B1 (ko) * 2013-12-30 2015-07-29 주식회사 코스콤 소셜 데이터의 분석에 따른 감성 기반 인덱스를 이용한 주가 지수의 추세와 전환점 판정 방법 및 그 시스템
US9734179B2 (en) 2014-05-07 2017-08-15 Sas Institute Inc. Contingency table generation
US10949492B2 (en) 2016-07-14 2021-03-16 International Business Machines Corporation Calculating a solution for an objective function based on two objective functions

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002207755A (ja) * 2001-01-09 2002-07-26 Fujitsu Ltd イベントデータに関する情報管理装置
CN1402153A (zh) * 2001-08-08 2003-03-12 株式会社东芝 数据分析系统和方法
CN1442803A (zh) * 2002-03-06 2003-09-17 富士通株式会社 评价网页的装置和方法
JP2006155404A (ja) * 2004-11-30 2006-06-15 Toshiba Corp 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3300256B2 (ja) * 1997-05-20 2002-07-08 株式会社日立国際電気 情報端末システム
US8285619B2 (en) 2001-01-22 2012-10-09 Fred Herz Patents, LLC Stock market prediction using natural language processing
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2005100221A (ja) * 2003-09-26 2005-04-14 Nomura Research Institute Ltd 投資判断支援情報提供装置および方法
JP4205090B2 (ja) 2005-09-30 2009-01-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 数値情報にテキスト情報を関連付けて表示する装置、および、その方法
US20080086436A1 (en) * 2007-08-01 2008-04-10 Dr. Ying Zhao Knowledge pattern search from networked agents
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
US8606681B2 (en) * 2011-03-04 2013-12-10 Ultratick, Inc. Predicting the performance of a financial instrument

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216311A (ja) * 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002207755A (ja) * 2001-01-09 2002-07-26 Fujitsu Ltd イベントデータに関する情報管理装置
CN1402153A (zh) * 2001-08-08 2003-03-12 株式会社东芝 数据分析系统和方法
CN1442803A (zh) * 2002-03-06 2003-09-17 富士通株式会社 评价网页的装置和方法
JP2006155404A (ja) * 2004-11-30 2006-06-15 Toshiba Corp 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027023A (zh) * 2019-12-11 2020-04-17 重庆锐云科技有限公司 一种基于频繁分析的房产在线开盘检测方法及系统

Also Published As

Publication number Publication date
WO2012169432A1 (ja) 2012-12-13
EP2720153A4 (en) 2015-07-01
JP5254402B2 (ja) 2013-08-07
EP2720153A1 (en) 2014-04-16
US20140095424A1 (en) 2014-04-03
JP2012256108A (ja) 2012-12-27
CN103460206B (zh) 2016-10-12
US10769534B2 (en) 2020-09-08

Similar Documents

Publication Publication Date Title
Salatino et al. AUGUR: forecasting the emergence of new research topics
CN101408885B (zh) 利用统计分布对主题进行建模
US20130290232A1 (en) Identifying news events that cause a shift in sentiment
CN104081385B (zh) 从文档表示信息
US20170116203A1 (en) Method of automated discovery of topic relatedness
CN102902775B (zh) 互联网实时计算的方法和系统
CN101558408A (zh) 提供检索结果的方法和执行其方法的系统
JP2009099124A (ja) データ構築方法とシステム
CN103460206A (zh) 注目评价对象提取装置及程序
Rautray et al. Document summarization using sentence features
KR102294555B1 (ko) 자동보고서생성장치 및 그 동작 방법
JPWO2017168524A1 (ja) 分析用サーバ装置、データ解析システム、及びデータ解析方法
JP2006350656A (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
TW202009748A (zh) 物流物件資訊處理方法、裝置及電腦系統
KR101132450B1 (ko) 실시간 급상승 키워드 추출 방법 및 실시간 급상승 키워드추출 시스템
CN111666499A (zh) 一种基于大数据的舆情监测云服务平台
Park et al. Improving the accuracy and diversity of feature extraction from online reviews using keyword embedding and two clustering methods
CN111046281B (zh) 热点话题的构建方法及装置
JP5217518B2 (ja) 関係情報取得システム、関係情報取得方法および関係情報取得用プログラム
CN112631889A (zh) 针对应用系统的画像方法、装置、设备及可读存储介质
CN117056477A (zh) 一种案例数据的检索方法、装置、设备及可读存储介质
Hong et al. Effective topic modeling for email
JP2009053983A (ja) 情報構造化装置、情報構造化方法、及びプログラム
JP4892896B2 (ja) コミュニケーション分析装置および方法
KR102221267B1 (ko) 기술 경쟁 정보 제공 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161012