CN110199354B - 生物体系信息检索系统以及方法 - Google Patents

生物体系信息检索系统以及方法 Download PDF

Info

Publication number
CN110199354B
CN110199354B CN201880006375.5A CN201880006375A CN110199354B CN 110199354 B CN110199354 B CN 110199354B CN 201880006375 A CN201880006375 A CN 201880006375A CN 110199354 B CN110199354 B CN 110199354B
Authority
CN
China
Prior art keywords
biological system
system information
factors
information
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880006375.5A
Other languages
English (en)
Other versions
CN110199354A (zh
Inventor
金善中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN110199354A publication Critical patent/CN110199354A/zh
Application granted granted Critical
Publication of CN110199354B publication Critical patent/CN110199354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种生物体系信息检索系统以及方法。生物体系信息检索系统包括:查询输入部,用于接收检索查询,所述检索查询被描述为包括当前状态(current state)和预期结果(expected result)中的一种以上;查询语句分析部,在从所述查询输入部提供的所述检索查询中,提取对当前状态和预期结果的记号(token),利用所提取的记号,生成针对当前状态的第一语料库数据集和针对预期结果的第二语料库数据集中的一种以上;以及检索请求部,将从所述查询语句分析部生成的所述第一语料库数据集和所述第二语料库数据集中的一种以上语料库数据集以及根据预定的规则生成的选项值输入到信息管理装置,以便检索具有相似性的生物体系信息。

Description

生物体系信息检索系统以及方法
技术领域
本发明涉及一种生物体系信息检索系统以及方法。
背景技术
最近,需要一种使设计者能够快速且精确地从生物学领域中爆炸性增加的文献中提取或检索生物学知识的方法。
这是由于由此可以对多种技术领域提出有效的开发方向,如利用生物知识开发半永久性粘合方法,或者寻找用于开发关于仿生机器人的敌我识别方法等的想法等。
但是,现有对生物知识的检索算法明显不足以支持设计者的认知探索(cognitivesearch)过程。
另外,虽然为了提供基因序列等生物体相关的综合信息,还部分实现了可通过因特网访问的生物信息检索服务,但是只提供限于生物体的生物关系的有限的信息,而不能以可综合检索的方式提供物理关系等多种信息。
此外,虽然公开了利用生物个体名称从生物文件中提取生物个体名称之间的关系的技术,但是该技术也是基于限于生物体的生物关系的信息。
与此同时,现有的对生物知识的检索系统的局限性在于,仅以非常有限的信息为对象,提供关键词检索方式或者根据影像匹配度的简单检索结果。
发明内容
技术问题
本发明用于提供一种生物体系信息检索系统以及方法,其通过将仿生设计(Bio-inspired Design)中成为模仿以及应用的对象的自然界的生物体系(biologicalsystem),即包含物理关系(Physical relations)、生态关系(Ecological relations)和生物关系(Biological relations)的生物体系信息实现为综合因果模型,并且构建为本体(ontology),从而使设计者在仿生设计中利用各种信息和条件有效地实施检索,由此可以实现设计者的创意设计。
通过下述说明,可容易理解本发明的其他目的。
技术方案
根据本发明的一实施方式,提供一种生物体系信息检索系统,其包括:查询输入部,用于接收检索查询,所述检索查询被描述为包括当前状态(current state)和预期结果(expected result)中的一种以上;查询语句分析部,在从所述查询输入部提供的所述检索查询中,提取对当前状态和预期结果的记号,利用所提取的记号,生成针对当前状态的第一语料库数据集和针对预期结果的第二语料库数据集中的一种以上;以及检索请求部,将从所述查询语句分析部生成的所述第一语料库数据集和所述第二语料库数据集中的一种以上语料库数据集以及根据预定的规则生成的选项值输入到信息管理装置,以便检索具有相似性的生物体系信息,其中,所述信息管理装置是针对各个生物体而预先生成、存储并管理生物体系信息的装置,所述生物体系信息是以物理关系、生态关系和生物关系特定的信息。
各个生物体系信息可以是根据预定的规则对各个节点(node)标引一个以上的词汇并结构化的信息,所述节点为状态变化(CoS)因素、物理现象(PPH)因素、物理效果(PEF)因素、输入(Input)因素、生态现象(EPH)因素、生态学行动(EBH)因素、器官(Organ)因素、组织(Part)因素、实体(Entity)因素以及行为(Action)因素。
当所述检索查询仅对当前状态和预期结果中的任意一种进行描述时,所述检索请求部可生成选项值,以便对所述语料库数据集的记号和与各个生物体系信息的物理效果(PEF)因素对应地标引的词汇之间的相似性进行评价,从而提供具有预定的临界值以上的相似度的一个以上的生物体系信息。
当所述检索查询对当前状态和预期结果进行描述时,所述检索请求部可生成选项值,以便对所述语料库数据集的记号和与各个生物体系信息的物理现象(PPH)因素对应地标引的词汇之间的相似性进行评价,从而提供具有预定的临界值以上的相似度的生物体系信息。
所述选项值可以进行指示,使得所述信息管理装置对于包含于所述第一语料库数据集的名词记号和与所述物理现象(PPH)因素对应地标引的词汇的相似性进行评价,并且对于包含于所述第二语料库数据集的动词记号和与所述物理现象(PPH)因素对应地标引的词汇的相似性进行评价。
当在所述语料库数据集的记号中存在收录于预先存储的生物单词词典中的词汇时,所述检索请求部可生成选项值,使得所述信息管理装置进一步考虑与各个生物体系信息的器官(Organ)因素、组织(Part)因素以及实体(Entity)因素对应地标引的词汇,以实施相似性评价。
当在所述语料库数据集的记号中存在收录于预先存储的状态形容词单词词典中的词汇时,所述检索请求部可生成选项值,使得所述信息管理装置进一步考虑与各个生物体系信息的状态变化(CoS)因素对应地标引的词汇,以实施相似性评价。
生物体系信息检索系统进一步包括因果模型画布部,作为基于所述语料库数据集和选项值的相似性评价的结果,针对由所述信息管理装置提供的预定数量的各个相似的生物体系信息,生成并输出网络图,所述网络图以包括词汇和预定数量的缩略图图像的方式示出,所述词汇被标引到相似的生物体系信息的各个节点,缩略图图像与被评价为对各个节点具有派生性的其他生物体系信息对应。
作为状态变化因素的节点,参照相似度评价值,以测定派生性,其中,所述相似度评价值为,对将被标引到相似的生物体系信息的状态变化因素的词汇重构而成的形容词集合、前置条件的名词集合以及后置条件的名词集合,与将被标引到存储于所述信息管理装置的各个生物体系信息的状态变化因素的词汇重构而成的形容词集合、前置条件的名词集合以及后置条件的名词集合,分别进行对比而得出的值。
作为物理现象因素和生态现象因素的记号,将被标引到相似的生物体系信息的相应因素的词汇分别区分为动词部和名词部,并且将被标引到存储于所述信息管理装置中的各个生物体系信息的相应因素的词汇分别区分为动词部和名词部,分别通过词典上的语义距离计算方法算出相似度评价值,以测定派生性。
作为物理效果因素、生态行动因素、器官因素以及组织因素的节点,通过被标引到相似的生物体系信息的相应因素的词汇与被标引到存储于所述信息管理装置的各个生物体系信息的相应因素的词汇是否一致,算出相似度评价值,以测定派生性。
作为输入因素的节点,对于被标引到相似的生物体系信息的输入因素的词汇和被标引到存储于所述信息管理装置的各个生物体系信息的输入因素的词汇,通过词典上的语义距离计算方法,算出相似性评价值,以测定派生性。
作为实体因素的节点,通过基于分层树数据结构的语义距离计算方法,来测定派生性,所述分层树数据结构是被标引到相似的生物体系信息的实体因素的ITIS固有ID号码与被标引到存储于所述信息管理装置的各个生物体系信息的实体因素的ITIS固有ID号码之间的分层树数据结构。
当点击任意的缩略图图像时,所述因果模型画布部生成并输出与被点击的缩略图图像相应的基于生物体系信息的网络图。
根据本发明的另一实施方式,一种生物体系检索方法,在生物体系信息检索系统中执行,其包括如下步骤:接收被描述成包括当前状态(current state)和预期结果(expected result)中的一种以上的检索查询;从所述检索查询中提取对当前状态和预期结果的记号,利用被提取的记号,生成对于当前状态的第一语料库数据集和对于预期结果的第二语料库数据集中的一种以上;将所述生成的所述第一语料库数据集和所述第二语料库数据集中的一种以上语料库数据集以及根据预定的规则生成的选项值输入到信息管理装置;作为基于所述语料库数据集和选项值的相似性评价的结果,接收从所述信息管理装置提供的预定数量的相似的生物体系信息;以及对于各个所接收的所述预定数量的相似的生物体系信息,生成并输出网络图,其中,所述信息管理装置是针对各个生物体而预先生成、存储并管理生物体系信息的装置,所述生物体系信息是以物理关系、生态关系和生物关系特定的信息,各个生物体系信息是根据预定的规则对各个节点(node)标引一个以上的词汇并结构化的信息,所述节点为状态变化(CoS)因素、物理现象(PPH)因素、物理效果(PEF)因素、输入(Input)因素、生态现象(EPH)因素、生态行动(EBH)因素、器官(Organ)因素、组织(Part)因素、实体(Entity)因素以及行为(Action)因素,所述网络图以包括词汇和预定数量的缩略图图像的方式示出,所述词汇被标引到相似的生物体系信息的各个节点,缩略图图像与被评价为对各个节点具有派生性的其他生物体系信息对应。
除了前述以外的其他方式、特征、优点将通过以下的附图,权利要求书以及具体实施方式将变得明确。
发明效果
根据本发明的实施例,将包含物理关系、生态关系和生物关系的生物体系实现为综合因果模型,并且构建为本体,从而使设计者在仿生设计中利用各种信息和条件有效地实施检索,由此可以实现设计者的创意设计。
另外,与现有的简单利用生物体的生物个体名称(例如,学名或俗名)或者相关结构(structure)(例如基因、疾病名称等)有限地进行检索不同,能够检索并利用与生物体有关的综合信息或者生态信息。
附图说明
图1是概略示出本发明的一实施例涉及的生物体系信息检索系统的结构的方框结构图。
图2是示出用于构成本发明的一实施例涉及的生物体系信息的缘于因果关系的本体结构的图。
图3是示出本发明的一实施例涉及的重构检索查询过程的流程图。
图4是示出本发明的一实施例涉及的相似矩阵和子(sub)相似矩阵结构的图。
图5是本发明的一实施例涉及的因果模型画布部被图示化的网络图的示例。
具体实施方式
本发明可施加各种变更并可具有各种实施例,将特定实施例示于附图并进行说明。但是,应当理解,这并非将本发明限定为特定的实施方式,而是涵盖落入本发明的思想及技术范围的所有变更、等同物以及替代物。
本说明书中使用的术语只是为了说明特定的实施例而使用,并非旨在限定本发明。除非上下文另有明确规定,否则单数的表达包括复数的表达。应当理解,在本说明书中,“包括”或“具有”等术语用于指定存在说明书中所记载的特征、数字、步骤、操作、构成要素、部件或其组合,并非预先排除一个或其以上的其他特征、数字、步骤、操作、构成要素、部件或其组合的存在。
第一、第二等术语可以用于说明各种构成要素,但是这些构成要素不应受这些术语的限制。这些术语仅用于区分一个构成要素与另一个构成要素。
另外,说明书中记载的“...部”、“...单元”、“...模块”等术语是指处理至少一种功能或动作的单元,这可以通过硬件或软件或者硬件以及软件的结合实现。
另外,在参照附图进行说明的过程中,与附图标记无关,对于相同的构成要素,赋予相同或有关联的附图标记,并省略对此的重复说明。在说明本发明的过程中,当认为对于关联公知技术的具体说明有可能混淆本发明的宗旨时,省略其详细说明。
图1是概略示出本发明的一实施例涉及的生物体系信息检索系统的结构的方框结构图,图2是示出用于构成本发明的一实施例涉及的生物体系信息的缘于因果关系的本体结构的图,图3是示出本发明的一实施例涉及的重构检索查询过程的流程图,图4是示出本发明的一实施例涉及的相似矩阵和子(sub)相似矩阵结构的图。图5是本发明的一实施例涉及的因果模型画布部被图示化的网络图的示例。
参照图1,生物体系信息检索系统可以包括信息管理装置110和信息应用装置150。
在图1中,示出信息管理装置110和信息应用装置150分别作为独立的装置通过有线或无线通信方式连接的情况,但是当然也可以在必要时将信息管理装置110和信息应用装置150形成为一体。
信息管理装置110是可以成为仿生设计(Bio-inspired Design)基础的构建生物体系(Biological System)信息的装置。
生物体系信息是在仿生设计中将成为模仿(mimicking)和应用(application)对象的个别生物体内部中的物理现象、生化现象等通过物理关系、生态关系和生物关系特定的信息,这可以扩展到个体(entity)之间的相互作用或多个物种(species)之间的相互作用。
即,在仿生设计中,尽管有直接模仿一个生物体(organism)的情况,但是直接/间接应用生物体内部的生物现象、由多个个体(entity)产生的相互作用或者由各种生物体物种(specie)产生的相互作用的情况也多,因此可以系统地构成个别生物体或者多个生物群或物种之间的相互作用,以便设计者能够在广泛的范围内构思各种想法。
例如,存储并管理欧洲椋鸟促进酒精分解以便消除酒精中毒的内容作为生物体系信息时,想要开发用于促进酒精分解的产品的设计者利用后述的信息应用装置150,连接信息管理装置110后,通过检索关于促进酒精分解等的生物体系信息,可以检索并应用欧洲椋鸟相关的信息。
信息管理装置110可以包括文件收集部112、收集数据库114、词汇词典数据库116、文件语句分析部118、标引处理部120、因果模型数据库122以及相似性评价部124。
文件收集部112收集由自然语言形成的生物文件。例如,作为生物学者整理的自然语言材料(natural-language based text),生物文件可以是HTML文件。当然,生物文件的作者或文件类型不限于上述内容,只要是能够生成与后述的物理关系、生态关系、生物关系相关的类别分类以及因果模型的文件即可。
收集数据库114存储通过文件收集部112收集的生物文件。
词汇词典数据库116存储有为了分别标引包含在生物体系信息中的物理关系、生态关系、生物关系所需的词汇。
例如,词汇词典数据库116可以将收录有基于ITIS(International TaxonomyInformation Systems,国际分类信息系统)标准的学名(scientific name)词汇的学名词典、从向外部公开的STONE的2014年论文中摘录的材料(Engineering-to-biologythesaurus function terms)等作为标引词汇存储。本发明通过使用学名词汇,以ITIS为标准,能够收集关于约2万1千个属(Genus)的生物体系信息。
另外,在分别标引物理关系、生态关系时,需要功能(function)、物质、能量(energy)、信号(signal)词汇,因此还可以存储专家预先编写的功能词汇词典、物质词汇词典(例如,材料(Material)>液体(Liquid)>酸(acid)、化学(chemical)、水(water)、血液(blood)等)、能量词汇词典(例如,能量(Energy)>液压(Hydralic)>压强(pressure)、渗透(osmosis)等)、信号词汇词典(例如,信号(Signal)>传感器(Sense)>发现(Detect)>检测(detect)、定位(locate)、看(see)/信号(Signal)>状态(Status)>变化(change)、脂肪(fatty)、变异(variation)等)等。此时,与生态现象(EPH,Ecological Phenomena)相关的词汇可以由根据功能、物质、能量、信号的类别来定义分类关系的材料构成。
文件语句分析部118解析由文件收集部112收集的生物文件,并分析生物文件的文章结构,并将文章以树状形成。此时,文件语句分析部118可以利用例如爬虫(Scrapy)解析器。
标引处理部120根据本体结构(参照图2),对于由文件语句分析部118分析的信息进行标引(indexing)处理,该本体结构表示基于已补充现有的SAPPhIRE模型的因果关系的生物体系。
即,对于由文件语句分析部118分析的信息,标引处理部120以存储于词汇词典数据库116中的学名词汇为基础,标引个别生物体的生物关系,以存储于词汇词典基础数据116中分别表示功能、物质、能量以及信号的词汇为基础,分别标引相关生物体的生物体系中物理关系和生态关系。
生物体系信息缘于主语(subject)-谓语(predicate)-宾语(object)的三重形态,如图2所示,构造成组合生物体具有的机制(mechanism)以及表现出通过机制表达的因果关系的物理关系、生态关系以及/或者生物关系。
以在被收集的生物文件中分析的信息为基础,用于标引生物体的最小单位为节点(node),各个节点的连接信息形成关系信息。
参照图2,生物体系信息的物理关系(Physical relations)中,输入(input)(例如,输入能量,信号或者/以及物质)将触发(activate)物理效果(PEF,Physical Effects),物理效果将生成(create)物理现象(PPH,Physical Phenomena),物理现象将生成(create)状态变化(CoS,Change of State),状态变化被解释(interpret)为是行为(action)。
其中,物理关系是以因果关系方式表示一个生物体为了达成特定目的(action,goal)而经历某一物理变化(CoS,Change of State)、通过某一物理效果(PEF,PhysicalEffects)导致某一物理现象(PPH,Physical Phenomena)等的信息。
具体地,物理变化(COS)是关于状态(state)在达成目的以前的状态和最终结果之间如何变化,并且前置条件(Pre condition)和后置条件(Post condition)的静态状态(state)以动态关系被标引。
物理效果(PEF)是关于在达成目的的过程中使用的策略,通常编入生物词典、物理学词典等,被标引为存在定义(definition)的策略(即,与相应单词相应的定义)。
物理现象(PPH)是关于某种策略具体如何被实施,为了明示具体如何被实施,通过专家预先编写的功能词汇词典(负责动词)和作为宾语负责名词的能量词典、物质词典、信号词典中定义的术语,可以以动词和宾语的关系组合并被标引。
例如,欧洲椋鸟解除酒精中毒时,解除酒精中毒属于行为(action),物理变化(CoS)是从高浓度酒精变化为低浓度酒精,中毒治疗可以属于物理效果(PEF)。因此,通过促进酒精分解这一物理现象(PPH),实现行为,即目的。
具体地,输入“大量酒精分子”将触发“治疗酒精中毒”这一物理效果,“治疗酒精中毒”这一物理效果将生成“促进酒精分解”这一物理现象,“促进酒精分解”这一物理现象将生成将“高浓度酒精”(即,前置条件(Pre condition))制成“低浓度酒精”(即,后置条件(Post condition))的状态变化,这种状态变化可以最终被解释为是“解除酒精中毒”这一行为。另外,从分析观点上,可以重新解释“解除酒精中毒”这一行为是输入“大量酒精分子”的原因。
另外,行为可以通过生态现象(EPH,Ecological Phenomena)解释(interpret),因此可将行为理解为是特定生物体为了执行某种行动(或者习性)所采取的物理“策略”。
例如,当认识到欧洲椋鸟“进食含有酒精的发酵水果的可能性高”的这一生态关系时,想要开发酒精中毒治疗剂的设计者可以从欧洲椋鸟的生态关系类推需要解除酒精中毒的酒精中毒者的生态关系,因此,可以将为了执行前述欧洲椋鸟采取的相应行动(习性)而所采取的物理策略,即“解除酒精中毒”的行为,应用为用于开发酒精中毒治疗剂的设计策略。
在所收集的生物文件中,以记载有关于具有解除酒精中毒能力的欧洲椋鸟的内容的情况为例,示出以存储于词汇词典数据库116中的词汇构成的生物体系信息,则如下述表1所示。当然,如果欧洲椋鸟具有各种特性,则以对应于各个节点(即,输入,PEF等)方式分别存储的多个词汇也可以越来越丰富多样。
表1
另外,在所收集的其他生物文件中包含关于为了减少空气阻力而具有轻质骨骼结构的欧洲椋鸟的内容时,也可以如表2所示进一步生成并管理关于欧洲椋鸟的生物体系信息。
表2
参照表2时,在关于欧洲椋鸟的生物体系信息中,输入动能和输入空气阻力将触发轻质骨骼结构这一物理效果,轻质骨骼结构这一物理效果将生成减轻骨骼质量这一物理现象,减轻骨骼质量这一物理现象将生成大质量变为小质量的状态变化,大质量变为小质量的状态变化可以最终被解释为是减少能耗这一行为。并且,从分析观点上,节省耗能这一行为可以被重新解释为是输入高动能和输入空气阻力的原因。
另外,从具有高效率飞行的习性这一生态关系,设计者可以将欧洲椋鸟的生态类推为作为飞行器的事物的生态(即,驾驶的状况),并且将欧洲椋鸟为了执行相应行动而所采取的物理策略,即节省能耗的行为应用为用于执行飞行器的行动,即用于开发飞行器的设计策略。
如图2与前述的表1和2中分别所确认的,生物体系信息的生物关系由器官(Organ)、组织(Part)、实体(Entity)构成。生物关系表示生物现象与生物体(organism)的某种组织(Part)的某种器官(Organ)有关联,组织(Part)是指器官(Organ)所属的组织(Part)。
实体作为标引各个生物体系信息与某一生物体(organism)相关的因素,是器官(Organ)和组织(Part)的拥有者,是能够直接观察其生物现象的生物体。
例如,就生成彩虹色(iridescent color)的墨绿彩丽金龟(Mimela splendens)而言,墨绿彩丽金龟被标引为实体(Entity),表皮(cuticle)是属于墨绿彩丽金龟的外壳(shell)的部分,因此生物系统的组织(Part)被标引为外壳(shell),并且可以被标引为与外壳(shell)的表皮有关的器官(Organ)。
重新参照图1,在因果模型数据库122中存储有生物体系信息,该生物体系信息是由标引处理部120根据存储于预定的本体结构(参照图2)和词汇词典数据库116中的各个词典的词汇而生成的。在因果模型数据库122中可以进一步存储有对应于各个生物体系信息的缩略图图像。
以下,简略说明按照各个因素标引并存储到因果模型数据库122中的规则(syntax)。
首先,状态变化(CoS)因素可以根据下述数学式1的规则进行存储。
数学式1:
COSBiological System={Statepre,Statepost}
Statepre={Adjpre,Nounpre}
Statepost={Adjpost,Nounpost}
即,存储为前置条件(Pre condition,Statepre)和后置条件(Post condition,Statepost),并且分别由形容词部(Adj)和名词部(Noun)构成。其中,在词汇词典数据库116中,形容词部标引词汇以状态形容词词典形式存储,名词部标引词汇分别以物质词汇词典、能量词汇词典、信号词汇词典形式存储。
并且,物理现象(PPH)因素可以根据下述数学式2的规则进行存储。
数学式2:
PPHBiological System={Predicatephysical,Objectphysical}
即,由动词部(Predicatephysical)和名词部(Objectphysical)构成,在词汇词典数据库116中,动词部标引的词汇以功能词汇词典形式存储,如前所述,名词部标引词汇分别以物质词汇词典、能量词汇词典、信号词汇词典形式存储。
并且,物理效果(PEF)因素可以根据下述数学式3的规则进行存储。
数学式3:
PEFBiological System={Indexphysicale ffect}
即,物理效果因素被标引为存储于词汇词典数据库116中的PEF标引词汇词典中收录的标引词汇中的一个。PEF标引词汇词典以“标引词汇”和“标引词汇的定义(definition)”的规则(例如“伪装(Camouflage)”+“伪装(Camouflage)”的定义)形式,存储于词汇词典数据库116。
并且,输入(input)因素可以根据下述数学式4的规则进行存储。
数学式4:
INPBiological System={Indexmaterial,Indexenergy,Indexsignal}
触发相应生物体系信息的输入由相关物质标引词汇(Indexmaterial)、能量标引词汇(Indexenergy)、信号标引词汇(Indexsignal)构成。这些分别被指定为存储于词汇词典数据库116中的物质词汇词典、能量词汇词典、信号词汇词典所收录的词汇。
并且,生态现象(EPH)因素根据下述数学式5的规则进行存储。
数学式5:
EPHBiological System={Predicateecological,Objectecological}
即,由关于“如何”的动词部(Predicate)和关于“什么”的名词部(Object)构成。作为一例,引发敌人(foe)的错觉以免被敌人发现的生物现象(camouflage)具有对敌人(body-materail)回避(avoid)的生态功能。如前所述,动词部和名词部的标引词汇以功能词汇词典、物质词汇词典、能量词汇词典、信号词汇词典形式预先存储于词汇词典数据库116中。
并且,生态行动(EBH,Ecological Behavior)因素根据下述数学式6的规则进行存储。
数学式6:
EBHBiological System={Indexecologicale ffect}
生态行动因素标引被标引为存储于词汇词典数据库116中的EBH标引词汇词典中所收录的标引词汇中的一个。例如,引发敌人(foe)错觉以免被敌人发现的生物现象(camouflage)具有伪装(Camouflage)的生态功能。标引词汇词典以“标引词汇”和“标引词汇的定义(text)”的规则(例如“草食动物(Herbivore)”+“草食动物(Herbivore)”的定义)形式,存储于词汇词典数据库116。
并且,器官(Organ)因素和组织(Part)因素分别根据下述数学式7进行存储。
数学式7:
ORGBiological System={Stringor gan}
PRTBiological System={Stringpart}
器官因素和组织因素可以利用存储于词汇词典数据库116的生物单词词典的单词进行标引。
并且,实体(Entity)因素根据下述数学式8的规则进行存储,该实体(Entity)因素是标引生物体系信息与某一生物体(organism)有关的因素。
数学式8:
ENTBiological System={IDITIS,Indexscientificname,Indexcommonname}
即,为了可以进行关联检索,根据基于ITIS体系的学名进行标引,并且从“ITIS学名词典”中标引生物体的固有ID号码(数字),Indexscientificname标引学名(文本(text)),Indexcommonname标引俗名(文本(text))。标引所需的ITIS词典预先存储于词汇词典数据库116。
并且,行为(Action)因素根据下述数学式9的规则进行存储。
数学式9:
ACTBiological System={Stringaction}
行为因素没有以单独的词典形式存储,而是以将设计者能够从生物体系信息获得的设计策略概括记载的说明形式标引。
如前所述,生物体系信息以各个生物体内部的物理关系、生态关系以及生物关系具有彼此连接关系(指向性)的因果模型形式表达并分别被标引,因此有利于设计者检索与想要应用的想法相关的生物体系信息。
相似性评价部124从检索请求部156接收检索查询(query),评价关于存储于检索查询和因果模型数据库122的各个生物体系信息的相似性,将具有预定的临界值以上的相似性的生物体系信息提供至因果模型画布部158。例如,相似性评价部124可以保管以Python语言形式存储于因果模型数据库122的生物体系信息。
在以后说明信息应用装置150的检索请求部156和因果模型画布部158的过程中,将与之相联系具体说明相似性评价部124的具体动作。
信息应用装置150作为用于以信息管理装置110中构建的生物体系信息为对象进行检索并接收检索结果的装置,可以包括查询输入部152、查询语句分析部154、检索请求部156以及因果模型画布部158。
查询输入部152是为了生物体系信息的检索,设计者等用户用于输入与本人的需求(needs)相应的检索查询的单元(参照图3的步骤310)。
例如,检索查询可以是由一个以上的单词构成的短语、句子(sentence)、段落(paragraph)等各种形式。
但是,本实施例中检索查询由自然语言短语(phrase)构成,以<当前状态(CurrentState)>和<预期结果(Expected Result)>的组合描述(describe)的情况为例进行说明。
为此,虽然查询输入部152可以在一个查询输入槽(slot)(例如检索词输入窗)中将<当前状态>和<预期结果>以自然语言短语形式共同记载,但是也可以实现为分别向用户提供用于输入<当前状态>的自然语言短语的第一查询输入槽(slot)和用于输入<预期结果>的自然语言短语的第二查询输入槽。
将检索查询以<当前状态(Current State)>和<预期结果(Expected Result)>的组合形式描述时,在执行检索的过程中,可以使因果关系变得明确,并由于本实施例涉及的生物体系信息采用在均匀的结构内表达的因果模型,具有更加有效的优点。
查询语句分析部154利用查询输入部152,将用户输入的查询短语(phrase)根据通常的自然语言处理方法分解成具有含义的单词,即记号(token),分析各个记号的语法成分(例如,形容词、动词、名词等)。另外,查询语句分析部154参照存储于信息管理装置110的词汇词典数据库116的词汇,将<当前状态>和<预期结果>各自的查询短语生成为记号的语料库(corpus)数据集(参照图3的步骤315)。
例如,用户为了获得用于开发酒精中毒治疗剂的想法,在检索查询中,输入“Theblood alcohol level is very high(体内酒精浓度非常高)”作为<当前状态>,并且输入“The blood alcohol level is normal(体内酒精浓度正常)”作为<预期结果>时,查询语句分析部154可以生成[blood,alcohol,level,very,high]作为对于<当前状态>的语料库数据集,并且生成[blood,alcohol,level,normal]作为对于<预期结果>的语料库数据集。
如前所述,语料库数据集将单词以标记(tokenizing)方式进行分割,去除文章符号和非索引字(stopword)(例如,a、an、for、and等),以列表(list)形式表达。
检索请求部156确认利用查询输入部152输入并通过查询语句分析部154分析的语料库数据集是否相对于<当前状态>和/或<预期结果>存在,将赋予与此相应的选项值的语料库数据提供至相似性评价部124。
当与提供至相似性评价部124的检索查询相应的语料库数据集只包含<当前状态>和<预期结果>中的任意一种时,相似性评价部124实现为能够执行生物体系信息的检索和相似性判断。当然,当相对于<当前状态>和<预期结果>均不存在语料库数据集时,由于没有输入有检索查询,因此必然不进行后述的检索步骤。
这是由于基本上仿生设计以基于类推策略的设计思考为前提。因此,用户为了寻找想法,可以不明示<预期结果>,以便在<当前状态>的条件下尽量观察各种结果,并且,可以不明示<当前状态>,以便在<预期结果>的条件下尽量观察各种前置条件。
即,可以将不明示<当前状态>和<预期结果>中的任意一种理解为,是解除思考限制的意思表达,并且是鼓励设计者在基于类推思考的仿生设计中有创意地进行类推的设计思考方法。
这是由于,例如,将“高酒精浓度”的<当前状态>与“低酒精浓度”的<预期结果>结合以具体限定因果关系时,无法检索到在保持“高酒精浓度”这一结果的同时,却将酒精应用为能源的丙酸互营细菌(Pelotomaculum Thermopropionicum)等相关的生物体系信息。
具体说明检索请求部156的动作,则检索请求部156在检索查询中只描述<当前状态>和<预期结果>中的任意一种时,利用在生物体系信息的本体结构中最为抽象地表达物理变化的因素,即物理效果(PEF)因素,相似性评价部124对于被标引为存储于因果模型数据库122中的生物体系信息的物理效果因素的信息和检索查询的语料库数据集之间的相似性进行评价,并且设定选项值,以便导出相似矩阵,并且将预定的临界值以上的生物体系信息提供至因果模型画布部158(参照图3的步骤320和325)。
但是,检索请求部156在检索查询中均描述有<当前状态>和<预期结果>时,利用生物体系信息的本体结构中的物理现象(PPH),相似性评价部124对于被标引为存储于因果模型数据库122中的生物体系信息的物理现象因素的标引信息和检索查询的语料库数据集之间的相似性进行评价,并且设定选项值,以便导出相似矩阵,并且将预先设定的临界值以上的生物体系信息提供至因果模型画布部158(参照图3的步骤320和325)。
进行具体说明,则<预期结果>作为变化的结果,显示预期的动作,因此,从<预期结果>的语料库数据集中收集动词(verb)记号(token),以便能够判断与相似性评价部124作为物理现象因素标引的各个信息之间的相似性。与此相比,<当前状态>显示变化的动作对象,因此从<当前状态>的语料库数据集中收集名词(noun)记号,以便能够判断与相似性评价部124作为物理现象因素标引的各个信息之间的相似性。
通过综合基于<预期结果>的动词记号的相似性评价部124的计算结果和基于<当前状态>的名词记号的相似性评价部124的计算结果,相似性评价部124可以导出相似矩阵,并且将预定的临界值以上的生物体系信息提供至因果模型画布部158。
另外,检索请求部156在词汇语料库数据集中发现存储于词汇词典数据库116的生物单词词典中所收录的词汇时,相似性评价部124在进行相似性评价时,进一步考虑生物体系信息的本体结构中被称为器官(Organ)、组织(Part)以及实体(Entity)的因素,并且设定选项值,以便在生成相似矩阵(Similarity Matrix)时利用相应的相似性评价结果(参照图3的步骤335和340)。
其中,生物单词作为生物体器官、组织或者/以及个体名称(例如,俗名、学名等)相关的单词,例如,感觉器官(sensory-organ)、肺(lung)、欧洲椋鸟(european-starling)等与此对应。
但是,如果在语料库数据集中没有发现收录于生物单词词典中的词汇,则设定选项值,以便在进行相似性评价时不考虑被称为器官(Organ)、组织(Part)以及实体(Entity)的因素。
并且,检索请求部156在语料库数据集中发现存储于词汇词典数据库116的状态形容词词典中所收录的词汇时,相似性评价部124在进行相似性评价时,进一步考虑生物体系信息的本体结构中的状态变化(CoS)这一因素,并且设定选项值,以便在生成相似矩阵(Similarity Matrix)时利用相应的相似性评价结果(参照图3的步骤345和350)。
其中,状态形容词作为与形容词种类中的大小、形状、状态、颜色、年龄、材料等对应的形容词,例如,高(high)、小(small)、巨大(enormous)、圆(round)、陶瓷(ceramic)、金属(metal)等与此对应。
但是,如果在语料库数据集中没有发现收录于状态形容词词典的词汇,则设定选项值,以便在进行相似性评价时不考虑状态变化因素。
检索请求部156将与所输入的检索查询对应地生成的语料库数据集和选项值提供至相似性评价部124并请求进行检索(参照图3的步骤355)。
因果模型画布部158测定作为相似性评价部124的相似评价结果被提供的一个以上的生物体系信息之间的派生性(即,关联性),利用被测定的派生性以网络图(参照图5)形式图式化并输出(参照图3的步骤355和步骤360)。当然,也可以在相似性评价部124执行派生性的测定,并且因果模型画布部158利用派生性测定结果信息,使网络图图示化。
以下,对于由相似性评价部124利用从检索请求部156接收的与检索查询对应的语料库数据集和关于存储于因果模型数据库122的各个生物体的生物体系信息执行检索并且判断相似性的过程进行说明(参照图3的步骤355)。
相似性评价部124为了对存储于因果模型数据库122的生物体系信息和所接收的<当前状态>和/或<预期结果>的语料库数据集执行相似性评价,在因果模型数据库122中存储有n个生物体系信息时,生成1×n矩阵形式的相似矩阵(similarity matrix)(参照图4的(a)),以便与语料库数据集比较。在执行相似性评价以前,各个相似性评价值可以被初始化为0。
如果与检索查询相应地对于<当前状态>和<预期结果>中的任意一种仅提供语料库数据集,则相似性评价部124在语料库数据集和因果模型数据库122的n个生物体系信息中,利用TF-IDF(Term Frequency-Inverse Document Frequency,出现频率-逆文本频率)方法,计算物理效果(PEF)因素的标引词汇的定义(definition)文本(其存储于PEF标引词汇词典中)和主题关联性的程度,并将算出的值记录为各个生物体系信息的相似度评价值。如果在以前的相似度评价过程中存在已经算出的相似度评价值,则进行相加。
其中,TF-IDF方法是具有在各个文件中所使用的词汇(记号)的相似性并且比较两个文件之间的相似性为一般方法,例如,语料库数据集由[blood、alcohol、level、very、high]构成,并且计算它们在关于物理效果(PEF)因素的标引词汇的定义文件“Alcoholism-treatment(酒精中毒治疗)”的文件中出现的次数相对于关于收录于PEF标引词汇词典中的全部术语的定义文件中出现的次数多出多少的方法。此时,level、very、high等记号是在大部分的文件中通常频繁使用的词汇,因此与blood或者alcohol等其他记号相比,被分配相对较低的相似度值。
但是,如果与检索查询相应地对<当前状态>和<预期结果>仅提供语料库数据集,则首先相似性评价部124利用通常的POST(Part of speech tagging,词性标注)算法等,从<预期结果>的语料库数据集(WER)只提取动词记号,以生成动词记号集合(Wp),并且从<当前状态>的语料库数据集(WCS)中只提取名词记号,以生成名词记号集合(Wo)。
例如,当<当前状态>的语料库数据集为[blood、alcohol、level、very、high]时,没有被判断为动词的记号,因此动词记号集合(Wp)为空白,但是名词记号集合(Wo)生成为[blood、alcohol、level]。
之后,相似性评价部124计算动词记号集合内的词汇和各个生物体系信息的物理现象(PPH)因素的动词部(Predicatephysical)(参照数学式2)的相似度,以生成第一相似度计算值。另外,相似性评价部124计算名词记号集合内的词汇和各个生物体系信息的物理现象(PPH)因素的名词部(Objectphysical)的相似度,以生成第二相似度计算值,并将第二相似度计算值乘以第一相似度计算值的计算值记录为各个生物体系信息的相似度评价值。如果之前的相似度评价过程(例如,根据生物单词的存在与否评价相似度等)中存在已经算出的相似度评价值进行相加。
在前述的例中,由于动词记号集合(Wp)是空白状态,因此第一相似度计算值算出为0。但是,如果动词记号集合(Wp)不是空白状态,而是任意生物体系信息的物理现象(PPH)因素被标引为<Adjust>+<Direction+of+Incident+Light>,则计算动词记号集合(Wp)内的动词记号和物理现象因素的动词部<Adjust>的相似度。
如前所述,存储于因果模型数据库122的功能词汇词典中收录有动词词汇,因此,计算动词记号集合(Wp)的动词记号和Adjust的语义距离,从而算出第一相似度计算值。
功能词汇词典构成为树(Tree)数据结构,以便计算各个词汇间的语义距离,通过经过动词记号和Adjust之间的共同的最近的母节点并且从相应动词记号到达Adjust的距离(即,连接各个分层节点的边缘(edge)的数量),算出第一相似度计算值。因此,随着最近的母节点距离最高位的节点越远,被算出的第一相似度计算值越高。这种树数据结构,可以与具有各个节点之间的连接关系的分层结构相似地构成,以便能够算出例如亲戚之间的辈分。
另外,同样地,如果名词记号集合(Wp)不是空白状态,并且任意生物体系信息的物理现象(PPH)因素被标引为<Adjust>+<Direction+of+Incident+Light>,则计算名词记号集合(Wo)的名词记号与物理现象因素的名词部中的名词“Direction”以及“Light”的相似度。与第一相似度计算值计算过程相同,第二相似度计算值也是通过词汇的语义距离算出,当成对对象的名词为多个(例如,“Direction”以及“Light”)时,例如可以将它们的平均值、总和或者最大值算出为第二相似度计算值。
接着,相似性评价部124判断在与检索查询相应的语料库数据集中是否存在状态形容词(例如,small、high等),如果存在,则进一步执行考虑了状态形容词的相似度评价。
即,当在<当前状态>和/或<预期结果>的语料库数据集中发现状态形容词时,将在存储于因果模型数据库122的各个生物体系信息的状态变化(CoS)因素的标引信息中的形容词部(Adj)(参照数学式1)中发现的频率乘积记录为各个生物体系信息的各个相似度评价值。如果在以前的相似度评价过程中存在已经算出的相似度评价值,则进行相加。此时,将<当前状态>的语料库数据集的状态形容词与前置条件的形容词部(Adj pre)作对比,并且将<预期结果>的语料库数据集的状态形容词与前置条件的形容词部(Adj pre)作对比,如果在<当前状态>和<预期结果>的语料库数据集中均发现状态形容词,则将各个频率的乘积相加的值记录为相似度评价值。
例如,当任意的生物体系信息的状态变化(CoS)因素由<High+Weight>+<Low+Weight>构成时,前置条件的形容词部为“High”,后置条件的形容词部为“Low”。并且,假设<当前状态>的语料库数据集的状态形容词为“high、small”,<预期结果>的语料库数据的状态形容词为“Normal”,则<当前状态>的状态形容词中high被发现一次,但是small被发现0次,其发现频率的乘积为0,并且对于<预期结果>的状态形容词的发现频率为0次。因此,相似度评价值为0。
如前所述,通过使用发现频率的乘积机制,当发现所有因素时,对相似度评价值可以起到加分点的作用。
另外,如图4的(b)所示,如果在语料库数据集中存在生物单词,则相似性评价部124进一步生成1×n大小的子(sub)相似矩阵。
例如,当<当前状态>的语料库数据集为[blood、alcohol、level、very、high],<预期结果>的语料库数据集为[blood、alcohol、level、normal]时,被称为“blood”的记号为收录于生物单词词典的生物单词。相似性评价部124分别对相应的生物单词和存储于因果模型数据库122中的n个生物系统信息实施比较。此时,如果与第j个生物体系信息的器官(Organ)、组织(Part)以及实体(Entity)因素对应地所标引的词汇中,“blood”这一生物单词被检索2次,则频率的和(sum)为2,并且与作为包含于第j个生物体系信息和语料库数据集中的生物单词的记号的相似度评价值2,被收录为子相似矩阵的第j个因素。
如前所述,相似性评价部124利用与检索查询对应的语料库数据集和关于存储于因果模型数据库122中的各个生物体系信息,分别生成相似矩阵和子相似矩阵。只是,相似矩阵针对用户的全部检索请求生成,而子相似矩阵仅在生物单词包含于语料库数据集内时生成。
以下,对如下过程进行说明:参照相似性评价部124通过前述过程生成的相似度评价值,将一个以上的生物体系信息提供至因果模型画布部158,则由因果模型画布部158测定各个生物体系信息之间的派生性,并利用所测定的派生性,使网络图(参照图5)图式化。当然,在相似性评价部124测定派生性,并且也可以由因果模型画布部158利用派生性测定结果信息,使网络图图式化。
相似性评价部124利用相似矩阵和/或子相似矩阵,对语料库数据集和关于各个生物体的生物体系信息之间的相似性进行评价后,将对于各个生物体系信息的相似度评价值为临界值以上的一个以上的生物体系信息提供至因果模型画布部158。其中,临界值可以指定为例如0.75,这是指提供属于上位75%的生物体系信息。
图5中示出对于因果模型画布部158从相似性评价部124接收的一个以上的生物体系信息测定派生性并图示化的网络图。
参照图5,图表显示屏幕可以被划分为图形区域510和信息显示区域520。
图形区域510作为显示有对于被评价为相似度测定值高的生物体系信息的网络图的区域,在上端,按照相似度评价值高的顺序,配置有序列号530,以便用户能够选择并确认生物体系信息。如果用户从序列号1变更选择为序列号2,则图形区域510中将显示相似度评价值相对较低的组2的关于生物体系信息的网络图。
例如,如图5所示,也可以进行处理,使得与多个序列号中对应于用户选择的组的网络图相对清晰地显示于图形区域510,但是与被选择的组的网络图相比,对应于未被用户选择的组的网络图相对模糊地显示于图形区域510。用户可通过参照清晰的网络图和模糊的网络图的存在,预想与多个序列号相应的多个网络图分别存在。
在图形区域510中可以显示有一个以上的缩略图图像,该缩略图图像与按照各个生物体系信息的因素被标引为相似的信息的其他生物体系信息相应。即,缩略图图像是与对于通过图形区域510显示的生物体系信息的各个因素具有相似的信息的其他生物体系信息有关的缩略图图像,并且设置有超链接,以便在用户选择任意的缩略图图像时能够移动到相应生物体的生物体系信息。
例如,图5的图形区域510中显示的生物体系信息是关于金龟子甲虫(CockchaferBeetle)的,则在被标引为[MELOLONTHA,Cockchafer Beetle]的实体(Entity)因素旁显示的三个缩略图图像分别显示其他三个生物体系信息,该其他三个生物体系信息以与金龟子甲虫(Cockchafer Beetle)相似的信息被标引实体因素。
在信息显示区域520中,以文本形式输出有在图形区域510通过网络图显示的生物体系信息或/和关联的生物文件。
以下,为了在网络图中附加示出缩略图图像,说明因果模型画布部158对于生物体系信息的各个因素测定派生性的方法。
因果模型画布部158使用1×n大小的相似矩阵,以便利用在任意一个生物体系信息的各个因素中被标引的信息来测定与其他生物体系信息的派生性,利用。
用于测定派生性的相似矩阵具有与先前参照图4的(a)说明的相似矩阵相似的形式,但是比较对象是任意一个生物体系信息的各个因素中被标引的信息,以代替语料库数据集。因此,将成为比较对象的标引信息和相同的生物体系信息作比较时,相似度为1,因此,这种生物体系信息有必要从用于显示缩略图图像的对象中去除。
首先,对状态变化(CoS)因素测定派生性(及,关联性)的方法如下述数学式10所示。
数学式10:
Adj:{Adj|Adjpre+Adjpost}
t∈S(ti,tj)
sim(ti,tj)=max[-log(p(t))]
if,a=b,then,Boolean(a,b)=1
if,a≠b,then,Boolean(a,b)=0
即,例如,状态变化因素被标引为如<Given+Olfactory+Stimulation>+<Peripheral+Sensory+Input>的<前置条件>+<后置条件>,重新构成为形容词集合[given,peripheral]、前置条件的名词集合[olfactory,stimulation]和后置条件的名词集合[sensory,input]后,与其他生物体系信息的状态变化因素的标引信息作比较。
在形容词集合的比较中,彼此一致则输出1,否则输出0,关于前置条件和后置条件的名词集合,与先前说明的物理现象(PPH)的比较方法相同,以基于能量词汇词典、信号词汇词典以及物质词典的语义距离计算方法进行计算后,将这些值全部相加,从而算出相似度评价值。
并且,对物理现象(PPH)因素测定派生性的方法如下述数学式11所示。
数学式11:
t∈S(ti,tj)
sim(ti,tj)=max[-log(p(t))]
例如,物理现象因素被标引为如<Expand>+<Surface>的<动词部>+<名词部>,并且与其他生物体系信息的物理现象因素的标引词汇作比较时,动词部基于功能词汇词典的语义距离计算方法进行计算,名词部基于能量词汇词典、信号词汇词典以及物质词汇词典的语义距离计算方法进行计算后,将各个值相加,从而算出相似度评价值。
并且,对于物理效果(PEF)因素测定派生性的方法如下述数学式12所不。
数学式12:
if,a=b,then,Boolean(a,b)=1
if,a≠b,then,Boolean(a,b)=0
Scorej=Boolean(PEF,PEFj)
例如,物理效果因素被标引为如<Surface-to-Volume Ratio>的存在于PEF标引词汇词典中的词汇,并且与其他生物体系信息的物理效果因素的标引词汇相比,相同则输出1,否则输出0,并且将该值用作相似度评价值。
并且,对于输入(input)因素测定派生性的方法如下述数学式13所示。
数学式13:
t∈S(ti,tj)
sin(ti,tj)=max[-log(p(t))]
例如,输入因素被标引为如<Olfactory Signal>的存在于能量词汇词典、信号词汇词典或者物质词汇词典的词汇,并且与其他生物体系信息的物理现象因素的标引词汇作比较时,被标引为如<Olfactory Signal>的信息仅对应于信号标引词汇,则对于物质标引词汇和能量标引词汇的评价结果输出为0,并且对于信号标引词汇,通过基于信号词汇词典的语义距离计算方法进行计算,从而算出相似度评价值。
并且,对生态现象(EPH)因素测定派生性的方法如下述数学式14所示。
数学式14:
t∈S(ti,tj)
sim(ti,tj)=max[-log(p(t))]
例如,生态现象因素如<Locate>+<Food>的由<动词部>+<名词部>构成,与其他生物体系信息的生态现象因素的标引词汇作比较时,动词部通过基于功能词汇词典的语义距离计算方法进行计算,名词部通过基于能量词汇词典、信号词汇词典以及物质词汇词典的语义距离计算方法进行计算后,将各个值相加,从而算出相似度评价值。
并且,对生态行动(EBH,Ecological Behavior)因素测定派生性的方法如下述数学式15所示。
数学式15:
if,a=b,then,Boolean(a,b)=1
if,a≠b,then,Boolean(a,b)=0
/>
例如,生态行动因素被标引为如<Foraging>的存在于EBH词汇词典的词汇,与其他生物体系信息的生态行动因素的标引词汇相比,相同则输出1,否则输出0,并且将该值用作相似度评价值。
并且,对于器官(Organ)因素和组织(Part)因素测定派生性的方法如下述数学式16所示。
数学式16:
if,a=b,then,Boolean(a,b)=1
if,a≠b,then,Boolean(a,b)=0
例如,器官因素和组织因素被标引为如<Fan-like End>、<Antennae>等的存在于生物词汇词典的词汇,与其他生物体系信息的器官因素或者组织因素的标引词汇相比,相同则输出1,否则输出0,并且将该值用作相似度评价值。
并且,对实体(Entity)因素测定派生性的方法如下述数学式17所示。
数学式17:
t∈S(ti,tj)
sim(ti,tj)=max[-log(p(t))]
例如,实体因素被标引为包括ITIS固有ID号码(即,国际标准ITIS制定学名的数字编码),以与基于学名的固有ID号码所具有的分层树数据结构计算语义距离的方式相同的方式,计算出与其他生物体系信息的实体因素的固有ID号码的相似度。
并且,对行为(Action)因素测定派生性的方法如下述数学式18所示。
数学式18:
if,a=b,then,Boolean(a,b)=1
if,a≠b,then,Boolean(a,b)=0
例如,行为因素以如<Maximize Exposure>的单词的组合形式被标引,与其他生物体系信息的行为因素的标引词汇相比,相同则输出1,否则输出0,并且将该值用作相似度评价值。
关于以前述方式在图形区域510中示出网络图的生物体系信息的各个因素的派生性(即,关联性),能够以与其他生物体系信息对应的因素为对象被计算,关于对各个因素派生性高的预定数量的其他生物体系信息的缩略图图像,能够以与构成网络图的生物体系信息的各个因素对应地方式显示。
如前所述,本实施例涉及的生物体系信息检索系统通过将仿生设计中成为模仿和应用的对象的自然界的生物体系,即包含物理关系、生态关系和生物关系的生物体系信息实现为综合因果模型,并且构建本体,从而使设计者在仿生设计中利用各种信息和条件有效地实施检索,并且由此可以实现设计者的创意设计。
上述的本发明的实施例涉及的用于检索生物体系信息的方法,能够在计算机可读取的记录媒体中以计算机可读取的代码实现。计算机可读取的记录媒介包括存储有可通过计算机系统解码的数据的所有种类的记录媒介。另外,计算机可读取的记录媒介也可以分散在通过计算机通讯网连接的计算机系统,并且作为以分散方式可读取的代码被存储和运行。
另外,以上参照发明的实施例进行了说明,但是,应当理解,在不脱离所附权利要求书中记载的发明的思想及领域的范围内,本领域技术人员可以对本发明进行各种修改及变更。

Claims (13)

1.一种生物体系信息检索系统,其特征在于,包括:
查询输入部,用于接收检索查询,所述检索查询被描述为包括当前状态(currentstate)和预期结果(expected result)中的一种以上;
查询语句分析部,在从所述查询输入部提供的所述检索查询中,提取对当前状态和预期结果的记号,利用所提取的记号,生成针对当前状态的第一语料库数据集和针对预期结果的第二语料库数据集中的一种以上;以及
检索请求部,将从所述查询语句分析部生成的所述第一语料库数据集和所述第二语料库数据集中的一种以上语料库数据集以及根据预定的规则生成的选项值输入到信息管理装置,以便检索具有相似性的生物体系信息,
其中,所述信息管理装置是针对各个生物体而预先生成、存储并管理生物体系信息的装置,所述生物体系信息是以物理关系、生态关系和生物关系特定的信息,
各个生物体系信息是根据预定的规则对各个节点(node)标引一个以上的词汇并结构化的信息,所述节点为状态变化(CoS)因素、物理现象(PPH)因素、物理效果(PEF)因素、输入(Input)因素、生态现象(EPH)因素、生态学行动(EBH)因素、器官(Organ)因素、组织(Part)因素、实体(Entity)因素以及行为(Action)因素,
当所述检索查询仅对当前状态和预期结果中的任意一种进行描述时,所述检索请求部生成选项值,以便对所述语料库数据集的记号和与各个生物体系信息的物理效果(PEF)因素对应地标引的词汇之间的相似性进行评价,从而提供具有预定的临界值以上的相似度的一个以上的生物体系信息,
当所述检索查询对当前状态和预期结果进行描述时,所述检索请求部生成选项值,以便对所述语料库数据集的记号和与各个生物体系信息的物理现象(PPH)因素对应地标引的词汇之间的相似性进行评价,从而提供具有预定的临界值以上的相似度的生物体系信息。
2.根据权利要求1所述的生物体系信息检索系统,其特征在于,
当所述检索查询对当前状态和预期结果进行描述时,所述选项值进行指示,使得所述信息管理装置对于包含于所述第一语料库数据集的名词记号和与所述物理现象(PPH)因素对应地标引的词汇的相似性进行评价,并且对于包含于所述第二语料库数据集的动词记号和与所述物理现象(PPH)因素对应地标引的词汇的相似性进行评价。
3.根据权利要求1所述的生物体系信息检索系统,其特征在于,
当在所述语料库数据集的记号中存在收录于预先存储的生物单词词典中的词汇时,所述检索请求部生成选项值,使得所述信息管理装置进一步考虑与各个生物体系信息的器官(Organ)因素、组织(Part)因素以及实体(Entity)因素对应地标引的词汇,以实施相似性评价。
4.根据权利要求1所述的生物体系信息检索系统,其特征在于,
当在所述语料库数据集的记号中存在收录于预先存储的状态形容词单词词典中的词汇时,所述检索请求部生成选项值,使得所述信息管理装置进一步考虑与各个生物体系信息的状态变化(CoS)因素对应地标引的词汇,以实施相似性评价。
5.根据权利要求1所述的生物体系信息检索系统,其特征在于,
进一步包括因果模型画布部,作为基于所述语料库数据集和选项值的相似性评价的结果,针对由所述信息管理装置提供的预定数量的各个相似的生物体系信息,生成并输出网络图,
所述网络图以包括词汇和预定数量的缩略图图像的方式示出,所述词汇被标引到相似的生物体系信息的各个节点,所述缩略图图像与被评价为对各个节点具有派生性的其他生物体系信息对应。
6.根据权利要求5所述的生物体系信息检索系统,其特征在于,
作为状态变化因素的节点,参照相似度评价值来测定派生性,其中,所述相似度评价值为,对将被标引到相似的生物体系信息的状态变化因素的词汇重构而成的形容词集合、前置条件的名词集合以及后置条件的名词集合,与将被标引到存储于所述信息管理装置的各个生物体系信息的状态变化因素的词汇重构而成的形容词集合、前置条件的名词集合以及后置条件的名词集合,分别进行对比而得出的值。
7.根据权利要求5所述的生物体系信息检索系统,其特征在于,
作为物理现象因素和生态现象因素的记号,将被标引到相似的生物体系信息的相应因素的词汇分别区分为动词部和名词部,并且将标引到存储于所述信息管理装置中的各个生物体系信息的相应因素的词汇分别区分为动词部和名词部,分别通过词典上的语义距离计算方法算出相似度评价值,以测定派生性。
8.根据权利要求5所述的生物体系信息检索系统,其特征在于,
作为物理效果因素、生态行动因素、器官因素以及组织因素的节点,通过被标引到相似的生物体系信息的相应因素的词汇与被标引到存储于所述信息管理装置的各个生物体系信息的相应因素的词汇是否一致,来算出相似度评价值,以测定派生性。
9.根据权利要求5所述的生物体系信息检索系统,其特征在于,
作为输入因素的节点,对于被标引到相似的生物体系信息的输入因素的词汇和被标引到存储于所述信息管理装置的各个生物体系信息的输入因素的词汇,通过词典上的语义距离计算方法算出相似性评价值,以测定派生性。
10.根据权利要求5所述的生物体系信息检索系统,其特征在于,
作为实体因素的节点,通过基于分层树数据结构的语义距离计算方法,来测定派生性,所述分层树数据结构是被标引到相似的生物体系信息的实体因素的ITIS固有ID号码与被标引到存储于所述信息管理装置的各个生物体系信息的实体因素的ITIS固有ID号码之间的分层树数据结构。
11.根据权利要求5所述的生物体系信息检索系统,其特征在于,
当点击任意的缩略图图像时,所述因果模型画布部生成并输出与被点击的缩略图图像相应的生物体系信息的网络图。
12.一种生物体系检索方法,在生物体系信息检索系统中执行,其特征在于,包括如下步骤:
接收检索查询,所述检索查询被描述成包括当前状态(current state)和预期结果(expected result)中的一种以上;
从所述检索查询中提取对当前状态和预期结果的记号,利用被提取的记号,生成针对当前状态的第一语料库数据集和针对预期结果的第二语料库数据集中的一种以上;
将所述生成的所述第一语料库数据集和所述第二语料库数据集中的一种以上语料库数据集以及根据预定的规则生成的选项值输入到信息管理装置;
作为基于所述语料库数据集和选项值的相似性评价的结果,接收从所述信息管理装置提供的预定数量的相似的生物体系信息;以及
对于各个所接收的所述预定数量的相似的生物体系信息,生成并输出网络图,
其中,所述信息管理装置是针对各个生物体而预先生成、存储并管理生物体系信息的装置,所述生物体系信息是以物理关系、生态关系和生物关系特定的信息,
当所述检索查询仅对当前状态和预期结果中的任意一种进行描述时,生成选项值,以便对所述语料库数据集的记号和与各个生物体系信息的物理效果(PEF)因素对应地标引的词汇之间的相似性进行评价,从而提供具有预定的临界值以上的相似度的一个以上的生物体系信息,
当所述检索查询对当前状态和预期结果进行描述时,生成选项值,以便对所述语料库数据集的记号和与各个生物体系信息的物理现象(PPH)因素对应地标引的词汇之间的相似性进行评价,从而提供具有预定的临界值以上的相似度的生物体系信息。
13.根据权利要求12所述的生物体系检索方法,其特征在于,
各个生物体系信息是根据预定的规则对各个节点(node)标引一个以上的词汇并结构化的信息,所述节点为状态变化(CoS)因素、物理现象(PPH)因素、物理效果(PEF)因素、输入(Input)因素、生态现象(EPH)因素、生态行动(EBH)因素、器官(Organ)因素、组织(Part)因素、实体(Entity)因素以及行为(Action)因素,
所述网络图以包括词汇和预定数量的缩略图图像的方式示出,所述词汇被标引到相似的生物体系信息的各个节点,缩略图图像与被评价为对各个节点具有派生性的其他生物体系信息对应。
CN201880006375.5A 2017-01-09 2018-01-08 生物体系信息检索系统以及方法 Active CN110199354B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170003066A KR101880275B1 (ko) 2017-01-09 2017-01-09 생물학적 체계 정보 검색 시스템 및 방법
KR10-2017-0003066 2017-01-09
PCT/KR2018/000364 WO2018128502A1 (ko) 2017-01-09 2018-01-08 생물학적 체계 정보 검색 시스템 및 방법

Publications (2)

Publication Number Publication Date
CN110199354A CN110199354A (zh) 2019-09-03
CN110199354B true CN110199354B (zh) 2023-08-04

Family

ID=62791020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880006375.5A Active CN110199354B (zh) 2017-01-09 2018-01-08 生物体系信息检索系统以及方法

Country Status (5)

Country Link
US (2) US11308172B2 (zh)
JP (1) JP6850405B2 (zh)
KR (1) KR101880275B1 (zh)
CN (1) CN110199354B (zh)
WO (1) WO2018128502A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108624516B (zh) * 2017-03-20 2022-08-26 华东理工大学 一种提高发酵细胞中的代谢产物量及制备idms标准品的方法
WO2021006573A1 (ko) * 2019-07-05 2021-01-14 (주)호모미미쿠스 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법
CN117057173B (zh) * 2023-10-13 2024-01-05 浙江大学 一种支持发散思维的仿生设计方法、系统及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175329A (ja) * 2000-12-07 2002-06-21 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
WO2008007683A1 (fr) * 2006-07-14 2008-01-17 The University Of Tokyo Dispositif et procédé de conversion de données, dispositif et procédé de gestion de bases de données et système et procédé d'interrogation d'une base de données
CN102955848A (zh) * 2012-10-29 2013-03-06 北京工商大学 一种基于语义的三维模型检索系统和方法
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN105335487A (zh) * 2015-10-16 2016-02-17 北京农业信息技术研究中心 基于农业技术信息本体库的农业专家信息检索系统及方法
CN105786963A (zh) * 2016-01-25 2016-07-20 汇智明德(北京)教育科技有限公司 一种语料库的检索方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030009099A1 (en) 2001-07-09 2003-01-09 Lett Gregory Scott System and method for modeling biological systems
KR100478792B1 (ko) 2001-08-29 2005-03-24 주식회사 씨티앤디 2차원 젤 이미지를 이용한 유사 단백질 검색 장치 및 방법
KR100575495B1 (ko) 2003-12-17 2006-05-03 엄재홍 생물학 관련 텍스트에서 생물학개체들간의 상호작용 추출및 추론 방법, 그 방법을 실행하기 위한 프로그램 및 그프로그램을 저장한 기록매체
KR100568977B1 (ko) 2004-12-20 2006-04-07 한국전자통신연구원 생물학적 관계 추출 시스템 및 생물 정보 처리 방법
US8452725B2 (en) * 2008-09-03 2013-05-28 Hamid Hatami-Hanza System and method of ontological subject mapping for knowledge processing applications
KR101419623B1 (ko) 2009-12-09 2014-07-15 인터내셔널 비지네스 머신즈 코포레이션 검색 키워드로부터 문서 데이터를 검색하는 방법, 그 컴퓨터 시스템 및 컴퓨터 프로그램
KR101400946B1 (ko) 2013-12-27 2014-05-29 한국과학기술정보연구원 생물학적 네트워크 분석 장치 및 방법
KR101816695B1 (ko) 2014-04-29 2018-01-12 광주과학기술원 유전자와 질병간의 관계를 포함하는 문장 검색 엔진
KR20160120583A (ko) 2015-04-08 2016-10-18 주식회사 노스트 지식 관리 시스템 및 이의 지식 구조 기반의 자료 관리 방법
US10957442B2 (en) * 2018-12-31 2021-03-23 GE Precision Healthcare, LLC Facilitating artificial intelligence integration into systems using a distributed learning platform

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002175329A (ja) * 2000-12-07 2002-06-21 Canon Inc 情報検索装置及び情報検索方法及びコンピュータ読み取り可能な記憶媒体
WO2008007683A1 (fr) * 2006-07-14 2008-01-17 The University Of Tokyo Dispositif et procédé de conversion de données, dispositif et procédé de gestion de bases de données et système et procédé d'interrogation d'une base de données
CN102955848A (zh) * 2012-10-29 2013-03-06 北京工商大学 一种基于语义的三维模型检索系统和方法
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
CN105335487A (zh) * 2015-10-16 2016-02-17 北京农业信息技术研究中心 基于农业技术信息本体库的农业专家信息检索系统及方法
CN105786963A (zh) * 2016-01-25 2016-07-20 汇智明德(北京)教育科技有限公司 一种语料库的检索方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于同义词词典的模糊查询扩展方法;马晖男等;《大连理工大学学报》;20070515(第03期);全文 *

Also Published As

Publication number Publication date
WO2018128502A1 (ko) 2018-07-12
US20220207098A1 (en) 2022-06-30
JP6850405B2 (ja) 2021-03-31
KR101880275B1 (ko) 2018-08-16
JP2020505683A (ja) 2020-02-20
US11762925B2 (en) 2023-09-19
US11308172B2 (en) 2022-04-19
CN110199354A (zh) 2019-09-03
US20190332634A1 (en) 2019-10-31
KR20180082030A (ko) 2018-07-18

Similar Documents

Publication Publication Date Title
Boleda Distributional semantics and linguistic theory
Lenci Distributional models of word meaning
Cohen et al. A survey of current work in biomedical text mining
CN111813957A (zh) 基于知识图谱的医疗导诊方法和可读存储介质
CN110199354B (zh) 生物体系信息检索系统以及方法
Kabir et al. DEPTWEET: A typology for social media texts to detect depression severities
Sereno et al. Short article: Size matters: Bigger is faster
Pattisapu et al. Medical persona classification in social media
CN112349367B (zh) 一种生成仿真病历的方法、装置、电子设备及存储介质
Kocielnik et al. Autobiastest: Controllable sentence generation for automated and open-ended social bias testing in language models
Liu et al. Extracting patient demographics and personal medical information from online health forums
Heyman et al. Can prediction-based distributional semantic models predict typicality?
Grewal et al. Chaining algorithms and historical adjective extension
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
KR102363131B1 (ko) 도식화된 질의 구성 방식을 이용한 전문가시스템에서의 다차원 지식 검색 방법 및 시스템
Resnik et al. Developing a curated topic model for COVID-19 medical research literature
KR20170115406A (ko) 생물학적 시스템 정보 처리 장치 및 방법
Aiello Systematic Analysis of the Factors Contributing to the Variation and Change of the Microbiome
KR102448275B1 (ko) 생물 종 동정을 활용한 생물학적 정보 추론 장치 및 방법
Renner et al. Exploring category structure with contextual language models and lexical semantic networks
Reilly et al. What is Semantic Distance? A Review and Proposed Method for Modeling Conceptual Transitions in Natural Language
US20220293220A1 (en) Biological information inference apparatus and method utilizing biological species identification
Boytcheva et al. Extraction and exploration of correlations in patient status data
Hsiao et al. Using UMLS to construct a generalized hierarchical concept-based dictionary of brain functions for information extraction from the fMRI literature
da Cruz Monteiro Feature Expansion for Social Media User Characterization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant