CN108027824B - 未来脚本生成装置和方法、以及计算机可读存储介质 - Google Patents

未来脚本生成装置和方法、以及计算机可读存储介质 Download PDF

Info

Publication number
CN108027824B
CN108027824B CN201680047214.1A CN201680047214A CN108027824B CN 108027824 B CN108027824 B CN 108027824B CN 201680047214 A CN201680047214 A CN 201680047214A CN 108027824 B CN108027824 B CN 108027824B
Authority
CN
China
Prior art keywords
phrase
causal relationship
future
community
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680047214.1A
Other languages
English (en)
Other versions
CN108027824A (zh
Inventor
桥本力
鸟泽健太郎
朱利安·克洛埃特泽
吴钟勋
田仲正弘
吾守尔·买日丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Publication of CN108027824A publication Critical patent/CN108027824A/zh
Application granted granted Critical
Publication of CN108027824B publication Critical patent/CN108027824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种能够大量地生成适当的未来脚本的未来脚本生成装置。未来脚本生成装置(272)包括:短语对DB(92),存储许多的因果关系短语对;因果关系网络构筑装置(290),将存储在因果关系短语对DB(92)的短语中的、成为提问输入部(280)接受的提问的主要部分的短语作为起点,联系能够作为因果关系进行联系的短语,从而构筑因果关系网络;社区检测装置(294),检测因果关系网络中的社区;以及未来脚本生成部(298),直到预先决定的结束条件成立为止,联系与成为该起点的短语属于相同的社区的、能够作为因果关系进行联系的短语,从而生成未来脚本。

Description

未来脚本生成装置和方法、以及计算机可读存储介质
技术领域
本发明涉及如下技术,即,用于从大量的文档所记载的信息在超过这些文档记载的信息的范围内生成促进考虑了所有的风险和机会的决策的、由因果关系的联系构成的信息的技术。
背景技术
在像现代社会这样活动复杂且大规模而且该活动的影响有可能波及全世界的社会中,如何预测将来是重要的。通过基于预测来开展准备,从而能够避免发生“不测的事态”。为了在政治、经济、其它诸多的日常生活中进行取得平衡的适当的决策,这种预测是不可或缺的。
但是,鉴于要考虑的信息为大量且不断变化的现状,对于个人,或者即使是一个组织,仅依靠其有限的知识和想象力,也难以得到适当的预测。虽然对于像气象的预测那样通过有限的范围的数据来预测有限的现象已经实用化,但是想要将这样的想法应用于社会的活动的构思,至今为止只有以下的专利文献1所公开的内容。
作为用于加强个人的能力的有力的工具,存在计算机。例如,关于存储信息,个人的能力远不及计算机。此外,还开发了高度的自然语言处理技术。运用了这样的信息的存储能力和自然语言处理技术的提问响应系统也已实现,能够针对用自然语言进行的提问以高精度提供正确的回答。
但是,这样的现有技术即使能回答像“什么是○○?”这样的所谓的What型的提问,但是对于“会怎么样?”型的提问则不能回答。在专利文献1公开的系统是如下系统,即,为了解决这样的问题,充分利用计算机的力量,预测考虑了所有的风险和机会的、将来可能发生的现象。如果这样的装置能够实用化,应该有助于人们的决策。在专利文献1中,为了这样的预测,生成由因果关系的联系构成的称为“社会脚本”的信息。
在图1示出该专利文献1所公开的提问/响应系统的概略结构。参照图1,假定用户30对社会脚本输出部36输入了“若智能电话普及会怎么样?”这样的“会怎么样?”型的提问32。在社会脚本输出部36,连接有由利用预先从互联网上收集的因果关系短语对(后述)而生成的许多的社会脚本构成的社会脚本DB34。社会脚本输出部36在存放在社会脚本DB34的社会脚本之中检索以具有与提问32相当的原因的因果关系为起点的许多的社会脚本并打分,从得分最高的开始依次显示社会脚本38。用户30能够在该社会脚本38之中搜索构成感兴趣的回答的因果关系的系统。
所谓因果关系短语对,是指叙述了成为原因的事情的短语(原因短语)和叙述了成为其结果的事情的短语(结果短语)的组。
参照图2,生成图1所示的社会脚本38的社会脚本生成系统60具有如下的结构。社会脚本生成系统60包括:从互联网70收集许多的文档的WEB搜索器72;将收集的文档以计算机可读的形式进行积累的WEB存档库74;以及用于从该WEB存档库74生成社会脚本38的社会脚本生成装置76。
社会脚本生成装置76包括:用于从积累在WEB存档库74中的文档收集因果关系短语对的因果关系短语对收集装置90;积累由因果关系短语对收集装置90收集的因果关系短语对,使得至少能够将其原因短语作为关键字进行访问并读出的因果关系短语对DB92;在积累到因果关系短语对DB92的许多的因果关系短语对中,不断地联系某个因果关系短语对和具有该因果关系短语对的结果短语作为原因短语的因果关系短语对,从而生成许多的社会脚本的社会脚本生成部94;积累由社会脚本生成部94生成的社会脚本的社会脚本DB34;以及响应于来自用户的提问而从社会脚本DB34中取出适当的社会脚本38作为回答,并进行排序而输出的社会脚本输出部36。另外,在因果关系的联系中,联系的前半部分的因果关系短语对的结果短语和后半部分的因果关系的原因短语即使作为字符串不同,只要具有意思上的一贯性(在专利文献1中,是关于因果关系的意思上的一贯性的意思,该一贯性被称为“因果一贯性”。)就进行联系。
因果关系短语对收集装置90从WEB存档库74收集大量的因果关系短语对,并存放到因果关系短语对DB92。社会脚本生成部94针对存放在因果关系短语对DB92中的因果关系短语对,重复联系某个因果关系短语对和具有能够与该短语对的结果短语进行联系(具有因果一贯性)的原因短语的因果关系短语对,从而生成联系了因果关系的社会脚本。可以认为,具有与一个因果关系短语对的结果短语具有因果一贯性的原因短语的因果关系短语对的数量一般是多个。因此,因果关系短语对的联系越多,社会脚本的数量越呈指数函数增加。这些社会脚本积累到社会脚本DB34。当用户对社会脚本输出部36给予某种提问时,社会脚本输出部36根据该提问的内容生成原因短语,并从社会脚本DB34检索以该原因短语为起点的社会脚本38提示给用户。此时,提示的社会脚本基于与提问的关系而被赋予得分,从得分高的社会脚本起提示给用户。
在先技术文献
专利文献
专利文献1:日本特开2015-121897号公报
非专利文献
非专利文献1:Gergely Palla,Imre Derenyi,Illes Farkas,and TamasVicsek.2005.Uncovering the overlapping community structure of complexnetworks in nature and society.Nature,435:814-818.
发明内容
发明要解决的课题
在上述的专利文献1记载的技术中,可得到大量社会脚本。因此,很多情况下其中会包含非常有用的社会脚本。但是,存放在WEB存档库74的文档变得越多,所得到的社会脚本的数量就越增加,因此存在如下问题,即,在社会脚本之中,有时会包含实际上不会发生的社会脚本或没有意义的社会脚本。
例如,参照图3,设对于“若智能电话普及会怎么样?”这样的提问150,得到了包含回答152的多个回答。设在回答152之后,进一步连锁式地得到了回答154、156、158、160、162。其中,若观察回答160,则为“若拥塞进一步加剧”“速度下降”,结果会出现像回答162那样得到“发生拥堵”这样的结论的社会脚本。若考虑与最初的提问150的关系,则可得到如下结论,即,若智能电话普及,则会发生交通拥堵。根据其内容,并不认为这是妥当的推论,即使从图3所示的因果关系的联系考虑,也不能说是正确的推论。
专利文献1记载的技术能够得到大量的社会脚本,因此具有可得到人们预想不到的推论结果这样的效果,但是相反,存在如下问题,即,在针对一个提问得到的社会脚本之中,会像上述那样大量混入不妥当的社会脚本,结果,在利用社会脚本方面成为很大的障碍。
另外,在本说明书的实施方式中,为了强调从某个提问来预测未来这一点,代替“社会脚本”这样的名称而使用“未来脚本”这样的名称。
故此,本发明的目的在于,提供一种能够大量生成适当的未来脚本的未来脚本生成装置和方法、以及为此的计算机程序。
用于解决课题的技术方案
本发明的第一局面涉及的未来脚本生成装置包括:短语对存储单元,存储许多的因果关系短语对;因果关系网络构筑单元,用于使存储于短语对存储单元的短语中的、能够作为因果关系联系的短语进行联系,从而构筑因果关系网络;社区检测单元,用于检测由因果关系网络构筑单元构筑的因果关系网络中的社区;初始短语选择单元,选择任意的短语作为初始短语;以及未来脚本生成单元,将由初始短语选择单元选择的初始短语作为起点,直到预先决定的结束条件成立为止,使与该初始短语属于相同的社区的因果关系对进行联系,从而生成未来脚本。
优选地,社区检测单元包括:针对因果关系网络使用派系过滤法(CPM)来检测因果关系网络内的社区的单元。
更优选地,检测社区的单元在CPM执行中的k-派系检测中使用从k=3~6的范围选择的整数k。
进一步优选地,初始短语选择单元包括:根据由用户输入的提问句,选择与该提问句的主要部分具有因果一贯性的短语的单元。
本发明的第二局面涉及的未来脚本生成方法包括:计算机将许多的因果关系短语对存储到短语对存储单元的步骤;计算机使存储于短语对存储单元的短语中的、能够作为因果关系联系的短语进行联系,从而生成因果关系网络的步骤;计算机检测因果关系网络中的社区的步骤;计算机选择存储在存储单元中的任意的短语作为初始短语的步骤;以及计算机将初始短语作为起点,直到预先决定的结束条件成立为止,使与该初始短语属于相同的社区的、能够作为因果关系联系的短语进行联系,从而生成未来脚本的步骤。
本发明的第三局面涉及的计算机程序使计算机作为上述任一个未来脚本生成装置的全部单元而发挥功能。
附图说明
图1是示意性地示出生成针对“会怎么样?”型的提问的回答的提问/响应系统的功能的图。
图2是在专利文献1记载的以往的社会脚本生成系统的框图。
图3是用于说明在专利文献1记载的社会脚本生成系统的问题点的图。
图4是因果关系网络的示意图。
图5是用于说明SNS中的社区的概念的示意图。
图6是示出在本发明中在因果关系网络中形成了社区的示意图。
图7是本发明的第一实施方式涉及的未来脚本生成装置的框图。
图8是图7所示的未来脚本生成部的框图。
图9是本发明的第二实施方式涉及的未来脚本生成装置的框图。
图10是本发明的第三实施方式涉及的未来脚本生成装置的框图。
图11是示出用于实现本发明的实施方式涉及的未来脚本生成系统的计算机的外观的图。
图12是说明图11所示的计算机的硬件结构的框图。
具体实施方式
在以下的说明以及附图中,对于同一部件标注同一附图标记。因此,不再重复对它们的详细的说明。
另外,虽然以下的说明是关于日本语的,但是即使是日本语以外的语言,通过使用与在本说明书公开的实施方式同样的方法,并对各国语言进行特有的考虑,也能够得到与本发明的各实施方式同样的未来脚本生成装置。
研究发生如图3所示的状况的原因。参照图4,在像以上那样得到的因果关系网络190中,设节点200为与图1的提问32对应的节点。与在原因短语中具有提问32的因果关系短语对相对应地,设存在从节点200到节点202(“拥塞加剧”)的边,进而,根据在原因短语中具有“拥塞加剧”的因果关系短语对,设存在从节点202到节点204(“发生速度下降”)的边。而且,成为如下形式,即,由于在原因短语中具有“发生速度下降”的因果关系短语对,作为结果短语而得到节点206的“发生拥堵”,进而得到节点208的“交通瘫痪”。在此,从节点204到节点206的边实际上并不是与智能电话相关的,而是与汽车相关的。在专利文献1中,因为仅着眼于因果关系短语的语句,所以像这样也会从与原来的提问32无关的因果关系短语生成社会脚本。这是因为,在专利文献1中生成的社会脚本之中混入有与本来的提问无关的因果关系的联系。
在解决该问题时,还有着眼于构成因果关系短语的语句对社会脚本进行筛选这样的方法。但是,这样的方法可能过于依赖直觉或基准变得随意而不能进行基于明确的基准的选择。因此,期望找到一种着眼于语句以外的要素来筛选社会脚本的方法。
在这方面,本发明的发明人注意到,作为在与本发明这样的未来脚本的生成毫无关系的技术领域的SNS(社交·网络·服务)中用于找出构成网络的下位的未知的单元的技术,存在非专利文献1记载的技术。该技术主要在SNS中找出网络内的社区或者着眼于各种各样的蛋白质的构造的类似性对蛋白质进行分类时使用。参照图5,在某个SNS网络220中,能够通过非专利文献1公开的方法找出某一部分人比其他人彼此更紧密地连结的组230、232、234等。将这样的组称为社区(Community)。社区也被称为集群(cluster)、组(group)、模块(module)等。如果能够将该方法与专利文献1中公开的技术进行组合,排除相互关系弱的因果关系,从而能够仅采用有用的未来脚本,则能够容易地利用专利文献1公开的发明。
因此,在以下所述的各实施方式中,例如,如图6所示,在图4所示的因果关系网络190中,将节点分类为由与智能电话相关的因果关系短语对构成的社区250和由与其他的主题相关的因果关系短语对构成的社区252以及254等。而且,在从因果关系短语对生成未来脚本时,从成为起点的因果关系短语对中,仅使用该因果关系短语对所属的社区中的因果关系短语对来生成未来脚本。另外,在本实施方式中,还允许一个节点属于多个社区。
像这样,通过使用SNS中的社区检测技术,从而在从某个因果关系短语对追溯因果关系而生成未来脚本时,在中途混入与原来的因果关系短语的原因短语无关的因果关系短语的可能性变小,只得到有意义的未来脚本的可能性变高。而且,该方法并不是直接基于构成因果关系短语对的语句,因此具有如下这样的效果:无论原始文档是哪种语言,也能够不对方法施加任何变更地进行应用。
<第一实施方式>
[结构]
参照图7,本发明的第一实施方式涉及的未来脚本生成系统270包括未来脚本生成装置276,其基于WEB存档库74,通过大概与在专利文献1记载的方法同样的方法来生成未来脚本,但是作为结构,仅从属于相同的社区的因果关系短语对生成未来脚本。
未来脚本生成装置272包括:与图2所示的同样的因果关系短语对收集装置90以及因果关系短语对DB92;通过使用了输入输出装置274的对话,从用户接受提问的输入的提问输入部280;将与提问输入部280接受的提问的主要部分具有因果一贯性的短语作为初始短语,从存储在因果关系短语对DB92中的因果关系短语对,构筑将各因果关系所包含的原因短语以及结果短语作为节点、且将彼此之间存在因果关系的表示两个短语的节点彼此进行连结的线作为边的因果关系网络(图)的因果关系网络构筑装置290;以及存储对由因果关系网络构筑装置290构筑的因果关系网络进行记述的数据的因果关系网络DB292。另外,在该因果关系网络中,各节点在与连结于该节点的前级的节点的关系中是结果短语,而在与连结与该节点的后级的节点的关系中则成为原因短语。
在因果关系网络构筑装置290中的短语的联系中,与专利文献1同样地,即使联系的前半部分的因果关系短语对的结果短语与后半部分的因果关系短语对的原因短语不是同一字符串,只要是具有因果一贯性,也能够联系这些短语。
在进行这样的因果关系的联系的情况下,如果某个因果关系短语对的结果短语与其它因果关系短语对的原因短语相同,则容易对联系进行判断。但是,现实中,存在即使文字上不同也能够对两个因果关系短语对进行联系那样的短语间的关系。若将它们遗漏掉,则生成的未来脚本的范围有可能不合理地变窄。因此,对于能够成为两个因果关系短语对的连结部的、某个因果关系短语对的结果短语和另一个因果关系短语对的原因短语,找出即使在字符串上不相同也能够将两者视为实质上相同的关系是重要的。
在本实施方式中,也与专利文献1同样地,即使像这样在字符串上不相同,在短语具有因果一贯性的情况下,也联系该短语。关于该因果一贯性,像在上述专利文献1中也记载的那样,是改变说法以及包含含义的新的概念,仅通过以往的自然语言处理技术并不能实现。因果关系网络构筑装置290通过对两个因果关系短语对评价一方的结果短语与另一方的原因短语的因果一贯性,从而联系具有因果一贯性的因果关系短语对。
关于是否具有因果关系的一贯性,使用各种各样的基准。首先,在构成因果关系网络的短语之中,将名词相同且表示该短语的构造的谓语模版的极性相同的短语视为具有因果一贯性的同义的短语。
谓语模版有简单谓语模版和复杂谓语模版。所谓简单谓语模版,在日本语中,是指像助词与谓语的组合(例:“吃~”)那样将一个助词和一个谓语进行结合的模板。例如是“进行~。”、“防止~。”、“~显现。”等。在该情况下,在句子中,在紧挨构成简单谓语模版的助词的前方配置谓语的主语、宾语等。所谓复杂单词模版,在日本语的情况下,将结合了助词“的”、一个名词、以及简单谓语模版的模板称为复杂单词模版。在本实施方式中,因为仅处理日本语的文档,所以使用这样的定义,但是根据语言,简单谓语模版和复杂谓语模版的定义根据该语言而成为不同的定义是显然的。
所谓极性,是为了表示谓语模版的性质而导入的概念。在本实施方式中,使用活性、惰性、以及中性这3个极性。所谓活性是记述了使在句子中位于构成谓语模版的前头的助词的紧前方的名词的主语、宾语等所指的对象具有的功能、效果等发挥、增大的方向的事件的谓语模版的极性。所谓惰性,是记述了使对象具有的功能、效果等不发挥的方向的事件的谓语模版的极性。所谓中性,是既不符合活性的定义也不符合惰性的定义的谓语模版的极性。
此外,在本实施方式中,将名词相同且短语整体的极性相同的短语的对、以及名词相同且具有在大量文档中出现的文章脉络类似的模版的短语的对视为具有因果一贯性的同义的短语。关于出现的文章脉络是否类似,通过预先计算模版的分布类似度而进行判定。
另外,作为用于连结短语的方法,并不限定于像上述那样使用两个短语的因果一贯性。例如,虽然在两个短语之间没有因果一贯性,但是在从意思上考虑存在从某个短语向另一个短语的因果关系过渡的关系的情况下,也可以视为存在因果一贯性。例如,在一方的短语为“阳光被遮住”这样的短语且另一方的短语为“阻碍光合作用”这样的短语的情况下,作为连接两者的链接,例如能够考虑“光合作用需要阳光”这样的短语。这样,能够将该短语作为媒介,将“阳光被遮住”这样的短语和“阻碍光合作用”这样的原因短语进行联系。
未来脚本生成装置272还包括:在存储于因果关系网络DB292的因果关系网络中,使用在非专利文献1记载的方法来检测社区,对与形成各社区的节点对应的短语赋予各社区的标识符,从而形成新的网络(称为因果关系社区。)并输出的社区检测装置294;存储该因果关系社区的因果关系社区DB296;从与存放在因果关系社区DB296中的各节点对应的短语中,仅搜索与提问输入部280接受的提问的主要部分属于相同的社区的短语,从而生成大量的未来脚本的未来脚本生成部298;积累由未来脚本生成部298生成的未来脚本的未来脚本DB300;以及对积累在未来脚本DB300的未来脚本进行排序,并作为针对提问的回答而输出的未来脚本输出部302。
关于因果关系社区的检测,在本实施方式中,使用被称为派系过滤(cliquepercolation法,CPM)的方法。在CPM中,在网络(图)中提取由k个(k是正的整数。)节点构成的完全部分子图(将其称为“k-派系”。),并将它们进行连结,从而检测社区。在此,所谓的完全部分子图,是指构成子图的k个节点全部相互由边进行了连接的那样的子图。例如,k=2的情况下的k-派系由两个节点和连结它们的一条边构成。3-派系是由将3个节点相互连结的3条边构成的图,是三角形状。
所谓两个k-派系彼此相邻,是指两个k-派系彼此共有k-1个节点的状态。所谓社区,是指由能够经由相邻的几个k-派系到达彼此的那样的k-派系的集合构成的子图。根据此定义,如前所述,两个社区能够共有节点。
社区的检测算法的基本的算法公开在非专利文献1及其附属文档。附属文档能够通过以下得到。
http://nature.com/nature/journal/v435/n7043/suppinfo/nature03607.html
进而,CPM被实现为各种各样的软件。例如,有用以下的URL发布的软件。
http://www.cfinder.org
https://github.com/aaronmcdaid/MaximalCliques
除了这些以外,还提供了用于实现CPM的许多的算法,进而,发表了各种用于使处理变得高速的研究。
另外,若k的值较小,则会形成近乎网络整体的大小的巨大的社区,检测社区变得没有意义。此外,若k的值较大,则每个社区变小,会损失生成未来脚本时的多样性。在非专利文献1记载的社区检测方法中,k的值优选为3至6的范围。因此,为了生成充分的数量的在意思上匹配的未来脚本,同样优选从k=3~6的范围选择k的值。当然,在该范围以外也能够使用CPM,根据因果关系网络的状态,也可以从其他的范围取k的值。在本实施方式,设k=4。
此外,基于CPM的社区的检测针对所谓的无向图进行。另一方面,本实施方式中的因果关系网络是有向图。在本实施方式中的社区的检测时,将该因果关系网络视为无向图而应用CPM。
另外,在社区的检测中,除了CPM以外,还能够使用各种方法。在作为社区检测而为人所知的算法中,例如,有如下的算法。在它们之中,存在不仅能够针对无向图进行应用而且针对有向图也能够应用的算法。此外,既有允许一个节点属于多个社区的算法,也有不允许的算法。但是,在本实施方式中,它们中的任意一个都能够用于进行网络(图)中的社区检测。
最小割(Minimum-cut)
层次聚类(Hierarchical clustering)
Girvan-Newman算法
模块度最大化(Modularity maximization)
基于集合的模块度最大化(Ensemble-Based Modularity Maximization)
随机游走和模块度最大化(Random Walks and Modularity Maximization)
支持最大化(Support Maximization)
统计推断(Statistical inference)
扬声器监听器标签传播(Speaker-listener Label Propagation)
局部敏感哈希(Locality Sensitive Hashing)
不相交社区检测(Disjoint Community Detection)
矩阵阻塞通过余弦相似度(Matrix Blocking via Cosine Similarity)
参照图8,未来脚本生成部298包括:从赋予了存储在因果关系社区DB296中的社区的标识符的因果关系网络,单独地读出仅由赋予了相同的社区标识符的短语构成的子网络的因果关系子网络读出部310;将由因果关系子网络读出部310读出的因果关系子网络分别单独地进行存储的按社区因果关系子网络DB312;针对存储在按社区因果关系子网络DB312中的每个子网络,将由提问输入部280选择的初始短语作为起点,一边使初始短语变化,一边进行通过因果关系使能够联系的短语联系而生成多个未来脚本候补并输出的处理的未来脚本候补生成部314;以及积累由未来脚本候补生成部314输出的未来脚本候补,根据表示作为未来脚本的妥当性的给定的得分进行排序并输出到未来脚本DB300的未来脚本排序部316。各子网络形成社区。因此,若像上述那样使与初始短语属于相同的子网络的短语联系,则能够得到仅使属于相同的社区的因果关系联系的未来脚本。
另外,在未来脚本候补生成部314中,当满足给定的条件时,使从初始短语生成各未来脚本的处理结束。例如,可以在从初始短语进行联系的短语的数量成为一定数量的时间点使该未来脚本的生成结束。或者,也可以在社区内找不到进行联系的短语的时间点结束。
[动作]
参照图7~图8,该第一实施方式涉及的未来脚本生成系统270像以下那样动作。WEB搜索器72从互联网70的网站收集大量的文档,并存储到WEB存档库74。当完成了向WEB存档库74的文档的收集时,因果关系短语对收集装置90从存放于WEB存档库74的文档之中收集大量的因果关系短语对。其方法像在专利文献1记载的那样。收集的因果关系短语对存放到因果关系短语对DB92中。
因果关系网络构筑装置290通过对全部的因果关系进行如下操作,从而生成因果关系网络,并存放到因果关系网络DB292:找出存放在因果关系短语对DB92的因果关系短语对中的、某个对的结果短语与另一个对的原因短语具有因果一贯性的因果关系短语对,将两者进行联系。
社区检测装置294在由存储在因果关系网络DB292的信息记述的因果关系网络中,使用实现在非专利文献1记载的方法的CPM来检测社区,生成记述对各因果关系短语对赋予了表示其所属的社区的标识符的新的因果关系网络(因果关系社区)的信息,并存放到因果关系社区DB296中。
参照图8,因果关系子网络读出部310从因果关系社区DB296读出由属于各社区的因果关系短语对构成的子网络,并按每个子网络存放到按社区因果关系子网络DB312。针对存储在按社区因果关系子网络DB312中的按社区的子网络中的每一个,未来脚本候补生成部314根据有无因果关系而不断地联系该子网络内的短语,从而生成许多的未来脚本候补并提供给未来脚本排序部316。因为按每个子网络来执行该处理,所以生成仅联系了属于各社区的短语的许多的未来脚本候补。
未来脚本排序部316积累所生成的未来脚本。当全部的未来脚本的生成结束时,未来脚本排序部316以给定的得分对它们进行排序,生成排序的上位被靠前配置且能够追溯各因果关系那样的未来脚本显示画面,并显示在未图示的显示装置。然后,响应于用户的指示,对显示装置进行控制,使得显示请求的未来脚本。
如上所述,根据该实施方式,从因果关系短语对构筑因果关系网络,并从因果关系网络检测社区。未来脚本的候补仅从属于同一社区的短语生成。因此,在生成的未来脚本中混入属于其它社区的短语的可能性小,仅得到在意思上一贯的未来脚本。社区的检测仅根据网络的形状来判断。构成因果关系短语对的语句不被使用。因此,与记述了因果关系短语对的语言无关,能够通过该方法得到有用的未来脚本。
<第二实施方式>
在上述第一实施方式中,如图7所示,从存储在因果关系网络DB292中的因果关系网络检测社区,形成对各因果关系短语对赋予了社区的标识符的新的DB(因果关系社区DB),并由此构筑每个社区的子网络。但是,本发明并不限定于这样的实施方式。例如,也可以,并不是从因果关系网络DB新构筑因果关系社区DB,而是在因果关系网络的各记录中设置用于存储社区标识符的字段,若检测到与各记录对应的因果关系短语对所属的社区,则将标识符存放到该字段。第二实施方式是这样的结构。
参照图9,第二实施方式涉及的未来脚本生成系统320代替图7的未来脚本生成装置272而包括未来脚本生成装置330。
未来脚本生成装置330与未来脚本生成装置272的不同点在于,不包括图7的因果关系网络DB292、社区检测装置294、以及因果关系社区DB296,取而代之,包括由像上述的那样预先设置了社区标识符的字段的因果关系网络的记录构成的因果关系网络DB340。此外,未来脚本生成装置330与未来脚本生成装置272的不同点还在于,包括进行如下处理的社区检测装置342,即,从由存放在因果关系网络DB340的信息表示的因果关系网络检测社区,将该因果关系短语对所属的社区的标识符代入到各因果关系短语对的记录的标识符的字段,从而对记录进行更新。
在该第二实施方式中,其特色在于,并不是从因果关系网络DB292重新构筑因果关系社区DB296,而是通过对因果关系网络DB340进行更新,从而得到与因果关系社区DB296同样的信息。其它的结构以及动作与第一实施方式的结构以及动作相同。
<第三实施方式>
在第一实施方式中,利用因果关系网络DB292构筑因果关系社区DB296。在第二实施方式中,通过用社区标识符来更新因果关系网络DB340,从而使因果关系网络DB340具有与因果关系社区DB296同样的信息。但是,本发明并不限定于这样的实施方式。在该第三实施方式中,不变更因果关系网络DB自身,将社区和属于社区的因果关系短语对的列表(称为社区列表。)保存在其它文件。
参照图10,该第三实施方式涉及的未来脚本生成系统350与图7所示的未来脚本生成系统270的不同点在于,取代未来脚本生成装置272而包括未来脚本生成装置360。
未来脚本生成装置360与图7的未来脚本生成装置272的不同点在于,代替图7的社区检测装置294、因果关系社区DB296以及未来脚本生成部298,包括:从由存储在因果关系网络DB292的信息记述的因果关系网络检测社区,并按每个社区输出由其标识符和属于该社区的因果关系短语对的标识符的列表构成的社区列表的社区检测装置370;存储该社区列表的社区列表存储部372;以及一边参照存储在社区列表存储部372的社区列表,一边按每个社区生成并输出未来脚本276的未来脚本生成部374。
在该第三实施方式中,社区检测装置370基于存储在因果关系网络DB292的信息来检测因果关系网络的社区,并按每个社区将社区列表存放到社区列表存储部372。
未来脚本生成部374读出存储在社区列表存储部372的社区列表,并按每个社区从因果关系网络DB292读出构成该社区的因果关系短语对,生成未来脚本276并输出到未来脚本DB300。
在该第三实施方式中,每当社区检测装置370生成关于某个社区的社区列表并输出到社区列表存储部372时,未来脚本生成部374能够进行关于该社区的处理。即,可得到能够同时并行地执行由社区检测装置370进行的社区检测和由未来脚本生成部374进行的未来脚本276的生成这样的效果。
在其它方面,未来脚本生成装置360与图7所示的未来脚本生成装置272在结构以及动作方面相同。
另外,上述实施方式涉及的未来脚本生成系统均在受到提问之后构筑因果关系网络,并从所构筑的因果关系网络生成未来脚本。但是,本发明并不限定于这样的实施方式。
例如,也可以针对预先存储在因果关系短语对DB92中的各短语,预先构筑总括性的因果关系网络,使得得到以该短语为起点的因果关系网络,并进行社区的检测。在该情况下,只要在输入了提问的时间点,最初决定与该提问在意思上相同的短语属于哪个社区,并仅从属于该社区的短语生成未来脚本即可。
此外,也可以进一步推进同样的方法,预先生成全部的未来脚本,并存储到未来脚本DB300。在各未来脚本中,存储生成该未来脚本时使用的短语所属的社区的标识符。在输入了提问的时间点,将与该提问在意思上相同的短语作为起点,检索并输出具有相同的社区的标识符的未来脚本,从而对于提问选择并显示作为未来脚本适当的未来脚本。
[利用计算机的实现]
上述实施方式涉及的系统能够通过计算机硬件和在该计算机硬件上执行的计算机程序来实现。图11示出该计算机系统930的外观,图12示出计算机系统930的内部结构。
参照图11,该计算机系统930包括具有存储器端口952以及DVD(DigitalVersatile Disc,数字影像光盘)驱动器950的计算机940、键盘946、鼠标948、以及监视器942。
参照图12,计算机940除了存储器端口952以及DVD驱动器950以外,还包括:CPU(中央处理装置)956;与CPU956、存储器端口952以及DVD驱动器950连接的总线966;对启动程序等进行存储的读出专用存储器(ROM)958;以及与总线966连接,对程序命令、系统程序、以及工作数据等进行存储的随机存取存储器(RAM)960。计算机系统930还包括网络接口(I/F)944,网络接口(I/F)944提供对能够与其它终端进行通信的网络的连接。网络I/F944可以与互联网70连接。
用于使计算机系统930作为构成上述的各实施方式的系统的各功能部而发挥功能的计算机程序存储在安装于DVD驱动器950或存储器端口952的DVD962或可插拔存储器964,进而转发到硬盘954。或者,程序也可以通过未图示的网络发送到计算机940并存储到硬盘954。程序在执行时载入到RAM960。也可以从DVD962、从可插拔存储器964、或经由网络直接将程序载入到RAM960。
该程序包括用于使计算机940作为上述实施方式涉及的系统的各功能部而发挥功能的多个命令。使其进行该动作所需的基本的功能中的几个由在计算机940上动作的操作系统(OS)或第三方的程序、或者安装在计算机940的各种编程工具包的模块提供。因此,该程序也未必一定要包括实现该实施方式的系统以及方法所需的全部功能。该程序只要仅包含命令中的如下命令即可,该命令通过以控制为可得到所希望的结果的做法调用适当的功能或编程工具包内的适当的程序工具,从而实现作为上述的系统的功能。计算机系统930的动作是中所周知的。因此,在此不再重复。
此次公开的实施方式仅是例示,本发明并不仅限制于上述的实施方式。本发明的范围在参考发明的详细的说明的记载的基础上由权利要求书的各权利要求示出,包括与其中记载的语句等同的意思以及范围内的全部的变更。
产业上的可利用性
本发明能够应用于提问响应服务、风险预测服务、市场调查的辅助服务、所有的产业中的市场动向的预测等、考虑了风险和机会的决策服务的提供以及为此的装置的制造。
附图标记说明
34:社会脚本DB;
36:社会脚本输出部;
38:社会脚本;
60:社会脚本生成系统;
70:互联网;
74:WEB存档库;
76:社会脚本生成装置;
90:因果关系短语对收集装置;
92:因果关系短语对DB;
94:社会脚本生成部;
190:因果关系网络;
250、252、254:社区;
270、320、350:未来脚本生成系统;
272、330、360:未来脚本生成装置;
290:因果关系网络构筑装置;
292、340:因果关系网络DB;
294、342、370:社区检测装置;
296:因果关系社区DB;
298、374:未来脚本生成部;
300:未来脚本DB;
302:未来脚本输出部;
310:因果关系子网络读出部;
312:社区別因果关系子网络DB;
314:未来脚本候补生成部;
316:未来脚本排序部;
372:社区列表存储部。

Claims (6)

1.一种未来脚本生成装置,包括:
短语对存储单元,其存储许多的因果关系短语对;
因果关系网络构筑单元,其用于使存储于所述短语对存储单元的短语中的、能够作为因果关系联系的短语进行联系,从而构筑因果关系网络;
社区检测单元,其用于检测由所述因果关系网络构筑单元构筑的所述因果关系网络中的社区;
初始短语选择单元,其选择任意的短语作为初始短语;以及
未来脚本生成单元,其将由所述初始短语选择单元选择的初始短语作为起点,直到预先决定的结束条件成立为止,使在所述因果关系网络中与该初始短语属于相同的社区的、能够作为因果关系联系的短语进行联系,从而生成未来脚本。
2.根据权利要求1所述的未来脚本生成装置,其中,
所述社区检测单元包括:针对所述因果关系网络使用派系过滤法即CPM来检测所述因果关系网络内的社区的单元。
3.根据权利要求2所述的未来脚本生成装置,其中,
检测所述社区的单元在CPM执行中的k-派系检测中使用从k=3~6的范围选择的整数k。
4.根据权利要求1~权利要求3中的任一项所述的未来脚本生成装置,其中,
所述初始短语选择单元包括:根据由用户输入的提问句,选择与所述提问句的主要部分具有因果一贯性的短语作为所述初始短语的单元。
5.一种未来脚本生成方法,包括:
计算机将许多的因果关系短语对存储到短语对存储单元的步骤;
计算机使存储于所述短语对存储单元的短语中的、能够作为因果关系联系的短语进行联系,从而生成因果关系网络的步骤;
计算机检测所述因果关系网络中的社区的步骤;
计算机选择存储在所述存储单元中的任意的短语作为初始短语的步骤;以及
计算机将所述初始短语作为起点,直到预先决定的结束条件成立为止,使与该初始短语属于相同的社区的、能够作为因果关系联系的短语进行联系,从而生成未来脚本的步骤。
6.一种存储有计算机程序的计算机可读存储介质,所述计算机程序使计算机作为权利要求1~权利要求4中的任一项所述的全部单元而发挥功能。
CN201680047214.1A 2015-08-12 2016-07-29 未来脚本生成装置和方法、以及计算机可读存储介质 Active CN108027824B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015-159376 2015-08-12
JP2015159376A JP6653499B2 (ja) 2015-08-12 2015-08-12 未来シナリオ生成装置及び方法、並びにコンピュータプログラム
PCT/JP2016/072362 WO2017026303A1 (ja) 2015-08-12 2016-07-29 未来シナリオ生成装置及び方法、並びにコンピュータプログラム

Publications (2)

Publication Number Publication Date
CN108027824A CN108027824A (zh) 2018-05-11
CN108027824B true CN108027824B (zh) 2022-05-03

Family

ID=57984521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680047214.1A Active CN108027824B (zh) 2015-08-12 2016-07-29 未来脚本生成装置和方法、以及计算机可读存储介质

Country Status (6)

Country Link
US (1) US20200202233A1 (zh)
EP (1) EP3336719A4 (zh)
JP (1) JP6653499B2 (zh)
KR (1) KR20180040578A (zh)
CN (1) CN108027824B (zh)
WO (1) WO2017026303A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704572B (zh) * 2017-09-30 2021-07-13 北京奇虎科技有限公司 人物实体的创作角度挖掘方法及装置
JP6467678B1 (ja) * 2018-10-08 2019-02-13 モンド・ラボ株式会社 質問応答システム、装置、方法、サーバ装置及びプログラム
JP2022122029A (ja) * 2021-02-09 2022-08-22 株式会社東芝 データ処理装置、データ処理方法及びデータ処理プログラム
JP2022162364A (ja) * 2021-04-12 2022-10-24 国立大学法人 東京大学 情報処理システム、情報処理方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102132272A (zh) * 2008-08-27 2011-07-20 雅虎公司 利用垂直建议辅助搜索请求的系统和方法
CN102138140A (zh) * 2008-07-01 2011-07-27 多斯维公司 利用综合语义语境的信息处理

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060106788A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation Computer-implemented system and method for providing authoritative answers to a general information search
JP5002963B2 (ja) * 2006-01-17 2012-08-15 オムロン株式会社 要因推定装置、要因推定プログラム、要因推定プログラムを記録した記録媒体、および要因推定方法
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム
CN101685455B (zh) * 2008-09-28 2012-02-01 华为技术有限公司 数据检索的方法和系统
JP5682448B2 (ja) * 2011-05-20 2015-03-11 日本電気株式会社 因果単語対抽出装置、因果単語対抽出方法および因果単語対抽出用プログラム
JP5834883B2 (ja) * 2011-12-20 2015-12-24 日本電気株式会社 因果関係要約方法、因果関係要約装置及び因果関係要約プログラム
CN104239286A (zh) * 2013-06-24 2014-12-24 阿里巴巴集团控股有限公司 同义短语的挖掘方法和装置及搜索相关内容的方法和装置
US10424016B2 (en) * 2013-12-19 2019-09-24 International Business Machines Corporation Modeling asset transfer flow relationships discovered in unstructured data
JP5904559B2 (ja) * 2013-12-20 2016-04-13 国立研究開発法人情報通信研究機構 シナリオ生成装置、及びそのためのコンピュータプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102138140A (zh) * 2008-07-01 2011-07-27 多斯维公司 利用综合语义语境的信息处理
CN102132272A (zh) * 2008-08-27 2011-07-20 雅虎公司 利用垂直建议辅助搜索请求的系统和方法

Also Published As

Publication number Publication date
CN108027824A (zh) 2018-05-11
EP3336719A4 (en) 2019-01-09
JP6653499B2 (ja) 2020-02-26
JP2017037544A (ja) 2017-02-16
US20200202233A1 (en) 2020-06-25
KR20180040578A (ko) 2018-04-20
WO2017026303A1 (ja) 2017-02-16
EP3336719A1 (en) 2018-06-20

Similar Documents

Publication Publication Date Title
Kaufhold et al. Rapid relevance classification of social media posts in disasters and emergencies: A system and evaluation featuring active, incremental and online learning
CN110837550B (zh) 基于知识图谱的问答方法、装置、电子设备及存储介质
Tang et al. Graphgpt: Graph instruction tuning for large language models
Howells et al. Applying fuzzy logic for sentiment analysis of social media network data in marketing
CN112365171B (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
WO2015093541A1 (ja) シナリオ生成装置、及びそのためのコンピュータプログラム
KR102259390B1 (ko) 앙상블 질의 응답을 위한 시스템 및 방법
US20170262783A1 (en) Team Formation
CN108027824B (zh) 未来脚本生成装置和方法、以及计算机可读存储介质
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
KR102285142B1 (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
Ali et al. Social media content classification and community detection using deep learning and graph analytics
WO2015093539A1 (ja) 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
CN113239143B (zh) 融合电网故障案例库的输变电设备故障处理方法及系统
Pecori et al. Incremental learning of fuzzy decision trees for streaming data classification
CN115878902A (zh) 基于神经网络模型的融媒体平台自动信息关键主题提取系统
Murthy et al. TwitSenti: a real-time Twitter sentiment analysis and visualization framework
Keyvanpour A survey on community detection methods based on the nature of social networks
CN111178701A (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN113298360B (zh) 一种用于资源分配的风险控制方法、装置和系统
CN112699668B (zh) 一种化学信息抽取模型的训练方法、抽取方法、装置、设备及存储介质
Aziz et al. Social network analytics: natural disaster analysis through twitter
Mahmood et al. An Overview of recent and traditional decision tree classifiers in machine learning
Hassan et al. On the importance of performing app analysis within peer groups

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant