发明内容
发明要解决的技术问题
在此,有时通过针对包含具有原因信息和结果信息的对的因果句的文件组群,提取原因表现(手段)与某文件(文件A)相似、且结果表现(效果)与某文件(文件A)不同的其他文件,能够将所提取到的文件用于研究文件A所记载的技术的新用途。另外,有时通过提取结果表现(效果)与文件(文件B)相似、且原因表现(手段)与文件(文件B)不同的其他文件,能够将所提取到的文件用于研究能获得与文件B相同的效果的不同种的技术的构成。
本发明是鉴于上述问题而完成的,目的在于提供一种提取符合期望条件的文件的因果句解析装置、因果句解析系统、程序以及因果句解析方法。
用于解决问题的技术方案
(1)一技术方案涉及的因果句解析装置具备:因果句提取部,其从文章提取包含原因表现和结果表现的因果句;取得部,其取得表示基准表现的信息,所述基准表现是用于对相似的程度进行解析的基准;相似度解析部,其针对所述因果句提取部提取到的因果句,算出原因相似度和结果相似度,所述原因相似度是该因果句所包含的原因表现与所述基准表现的相似度,所述结果相似度是该因果句所包含的结果表现与所述基准表现的相似度;以及期望因果句提取部,其提取所述因果句所包含的原因表现和结果表现中的一方与所述基准表现相似、且另一方与所述基准表现不相似的因果句,该因果句解析装置能够提取符合期望条件的文件。
(2)上述技术方案涉及的因果句解析装置也可以为,所述基准表现中包含原因表现和结果表现。
(3)上述技术方案涉及的因果句解析装置也可以为,所述期望因果句提取部提取所述原因相似度和所述结果相似度中的一方为第1阈值以上、且另一方为第2阈值以下的因果句,所述第2阈值为比所述第1阈值小的值。
(4)上述技术方案涉及的因果句解析装置也可以为,还具备因果关系提取部,所述因果关系提取部提取所述因果句提取部提取到的因果句中的、符合预定条件的因果句,所述相似度解析部针对所述因果关系提取部提取到的因果句,算出原因相似度和结果相似度。
(5)上述技术方案涉及的因果句解析装置也可以为,还具备:重要度算出部,其算出所述因果句提取部提取到的因果句的重要度;和重要因果句提取部,其基于所述重要度算出部算出的所述重要度,提取所述因果句提取部提取到的因果句中的所述重要度高的因果句,所述相似度解析部针对所述重要因果句提取部作为所述重要度高的因果句而提取到的因果句,算出原因相似度和结果相似度。
(6)上述技术方案涉及的因果句解析装置也可以为,还具备询问提取部,所述询问提取部基于所述因果句提取部提取到的因果句来提取询问,所述取得部取得所述询问提取部提取到的所述询问来作为所述基准表现。
(7)上述技术方案涉及的因果句解析装置也可以为,所述取得部取得由用户输入的信息来作为表示所述基准表现的信息。
(8)上述技术方案涉及的因果句解析装置也可以为,所述取得部取得表示由用户向自身装置输入的关键字的信息来作为表示所述基准表现的信息。
(9)上述技术方案涉及的因果句解析装置也可以为,还具备优先级附加部,所述优先级附加部基于所述原因相似度和所述结果相似度,对所述相似度解析部算出了所述原因相似度和所述结果相似度的因果句附加优先级。
(10)上述技术方案涉及的因果句解析装置也可以为,所述优先级附加部对于所述相似度解析部算出了所述原因相似度和所述结果相似度的因果句中的、结果表现与所述基准表现相似且原因表现与所述基准表现不相似的因果句,按原因相似度从低到高的顺序附加优先级。
(11)上述技术方案涉及的因果句解析装置也可以为,所述优先级附加部对于所述相似度解析部算出了所述原因相似度和所述结果相似度的因果句中的、原因表现与所述基准表现相似且结果表现与所述基准表现不相似的因果句,按结果相似度从低到高的顺序附加优先级。
(12)上述技术方案涉及的因果句解析装置也可以为,所述文章是指包含于专利文件的文章。
(13)一技术方案涉及的因果句解析系统具备:上述的因果句解析装置;输入部,其输入表示所述基准表现的信息;以及显示部,其显示所述因果句解析装置所输出的所述因果句,该因果句解析系统能够提取符合期望条件的文件。
(14)一技术方案涉及的程序使计算机执行:因果句提取步骤,从文章提取包含原因表现和结果表现的因果句;取得步骤,取得表示基准表现的信息,所述基准表现是用于对相似的程度进行解析的基准;相似度解析步骤,针对所提取到的因果句,算出原因相似度和结果相似度,所述原因相似度是该因果句所包含的原因表现与所述基准表现的相似度,所述结果相似度是该因果句所包含的结果表现与所述基准表现的相似度;输出步骤,提取所述因果句所包含的原因表现和结果表现中的一方与所述基准表现相似、且另一方与所述基准表现不相似的因果句。
(15)一技术方案涉及的因果句解析方法,计算机执行:从文章提取包含原因表现和结果表现的因果句,取得表示基准表现的信息,所述基准表现是用于对相似的程度进行解析的基准,针对所提取到的因果句进行相似度解析,在所述相似度解析中,算出原因相似度和结果相似度,所述原因相似度是该因果句所包含的原因表现与所述基准表现的相似度,所述结果相似度是该因果句所包含的结果表现与所述基准表现的相似度,提取并输出所述因果句所包含的原因表现和结果表现中的一方与所述基准表现相似、且另一方与所述基准表现不相似的因果句。
发明的效果
根据本发明,能够提供一种提取符合期望条件的文件的因果句解析装置、因果句解析系统、程序以及因果句解析方法。
具体实施方式
[实施方式]
以下,参照附图对本发明的实施方式进行说明。
[因果句解析装置的概要]
图1是表示实施方式涉及的因果句解析系统1的概要的图。
如图1所示,因果句解析系统1具备因果句解析装置10、显示部20以及操作部30。因果句解析装置10例如设于工作站、桌面PC(Personal Computer,个人计算机)、笔记本PC、平板PC、多功能便携电话终端(智能手机)、带通信功能的电子书阅读器、PDA(PersonalDigital Assistant,个人数字助理)等的信息处理装置。另外,在因果句解析装置10(信息处理装置)连接有显示部20和操作部30。显示部20基于因果句解析装置10的控制来显示各种图像。操作部30向因果句解析装置10提供表示由因果句解析装置10的用户输入到该操作部30的操作的信息。在以后的说明中,将因果句解析装置10的用户简单记载为用户。在此,操作部30是输入部的一个例子。
另外,在因果句解析装置10以能够进行信息的收发方式连接有数据库40。在数据库40例如存储有表示与专利有关的文件(以下记载为专利文件)的信息(以下记载为专利文件信息41)。专利文件例如是指专利公报、专利公开报道等。在本实施方式的一个例子中,专利文件信息41是关联了多个专利文件和该专利文件的识别信息(例如专利编号、专利申请公开编号以及专利申请编号等)的信息。数据库40也可以由RAM(Random Access Memory,随机访问存储器)、ROM(Read Only Memory,只读存储器)、HDD(Hard Disk Drive,硬盘驱动器)、闪速存储器、或者组合了这些中的多个而得到的混合型存储装置等来实现。
[发明的新用途的研究以及发明的不同种构成的研究]
在专利文件中示出表示发明要解决的技术问题、用于解决问题的技术方案(手段)、具体实施方式以及发明的效果等的详细内容的文章。具体而言,在专利文件的文章中包含:具有手段和实施方式来作为原因表现、并具有效果来作为结果表现的因果句;具有效果来作原因表现、并具有用途等的波及效果来作为结果表现的因果句;具有手段和实施方式来作为原因表现、并具有用途等的波及效果来作为结果表现的因果句等。在此,专利文献的利用者有时希望基于某专利的专利文件(例如专利文件A),对包含原因表现与专利文件A所包含的因果句相似、且结果表现与专利文件A所包含的因果句不相似(非相似)的因果句的专利文件(例如专利文件B)进行参阅。对于专利文件A来说,专利文件B是记载了具有相同的手段或者实施方式(即构成)、且能得到不同的效果的发明的专利文件。也即是,专利文献的利用者有时希望参阅专利文件B来作为对专利文件A所记载的发明的新用途进行研究的参考资料。
另外,专利文献的利用者有时希望基于某专利的专利文件(例如专利文件A),对包含结果表现与对专利文件A所包含的因果句相似、且原因表现与对专利文件A所包含的因果句不相似(非相似)的因果句的专利文件(例如专利文件C)进行参阅。对于专利文件A来说,专利文件C是记载了能得到相同的效果、且具有不同的构成的发明的专利文件。也即是,专利文献的利用者有时希望参阅专利文件C来作为对专利文件A所记载的发明的不同种构成进行研究的参考资料。
本实施方式的因果句解析装置10提取某专利文件的文章所包含的因果句中的、原因表现与成为比较基准的基准表现相似且结果表现与成为比较基准的基准表现不相似的因果句。另外,本实施方式的因果句解析装置10提取某专利文件的文章所包含的因果句中的、结果表现相似且原因表现不相似的因果句。
[因果句解析装置的构成]
以下,参照图2对因果句解析系统1的构成的详细进行说明。
图2是表示实施方式涉及的因果句解析系统1的构成的一个例子的图。
如图2所示,因果句解析系统1具备因果句解析装置10、显示部20以及操作部30。在因果句解析装置10连接有显示部20、操作部30、数据库40以及数据库50。
在数据库50中存储有表示专利文件所包含的单词的重要度的信息(以下记载为重要度信息51)。在此,在某专利文件和其他专利文件中,有时即使在专利文件包含同一单词,但专利文件中的该单词的重要度也不同。因此,重要度信息51按专利文件信息41所包含的各专利文件来表示专利文件所包含的各单词的重要度。对于专利文件所包含的单词的重要度,例如通过使用了TF-IDF(Term Frequency-Inverse Document Frequency(词频-逆向文件频率))的方法来按各专利文件进行算出。在本实施方式的一个例子中,重要度信息51是对专利文件所包含的各单词的重要度和该专利文件的识别信息进行了关联的信息。
因果句解析装置10具备控制部100。控制部100中,例如CPU(Central ProcessingUnit,中央处理单元)等的处理器执行存储于存储部(未图示)的程序,将因果句提取部110、噪声除去部120、取得部130、关键字检索部140、相似判定模型构建部150、相似度解析部160、期望因果句提取部170、优先级附加部180以及输出部190作为其功能部来实现。这些功能部既可以由LSI(Large Scale Integration,大规模集成电路)、ASIC(ApplicationSpecific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)等的硬件来实现,也可以通过软件和硬件的协作来实现。
因果句提取部110提取专利文件信息41所示的专利文件所包含的因果句。以下,参照附图对因果句的一个例子进行说明。
图3是表示因果句的一个例子的图。因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“ことにより”(中文译为“通过”))和结果表现(“出来る”(中文译为“能够”))的因果句(图示的例1)。另外,因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“ため”(中文译为“因为”)和结果表现(“できる”(中文译为“能够”)的因果句(图示的例2)。另外,因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“可能となり”(中文译为“成为可能”)和结果表现(“”(中文译为“能够”)的因果句(图示的例3)。另外,因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“できるため”(中文译为“因为能够”)和结果表现(“可能となる”(中文译文“成为可能”)的因果句(图示的例4)。
另外,因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“することで”(中文译为“通过”))和结果表现(“できる”(中文译为“能够”))的因果句(图示的例5)。另外,因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“するため”(中文译为“由于进行”))和结果表现(“可能になる”(中文译为“成为可能”))的因果句(图示的例6)。另外,因果句提取部110例如提取按照原因表现、结果表现的顺序包含原因表现(“ことにより”(中文译为“通过”))和结果表现(“である”(中文一般不译出))的因果句(图示的例7)。
返回图2,噪声除去部120将因果句提取部110提取到的因果句中的除相似度解析部160的解析对象的因果句之外的因果句排除掉。噪声除去部120例如具备因果关系提取部121、重要度算出部122以及重要因果句提取部123。
因果关系提取部121提取因果句提取部110提取到的因果句中的、符合预定条件的因果句。符合预定条件的因果句例如是指原因表现表示发明的课题、且结果表现表示发明的效果的因果句。因果关系提取部121例如通过使用了教师数据的支持向量机等的机器学习,提取因果句提取部110提取到的因果句中的、符合预定条件的因果句。
重要度算出部122算出因果关系提取部121提取到的因果句的重要度。具体而言,重要度算出部122对存储于数据库50的重要度信息51中的、提取到因果句的提取源的专利文件进行参照。重要度算出部122基于重要度信息51,算出因果句所包含的单词的重要度之和。重要度算出部122将所算出的重要度之和作为因果句的重要度提供给重要因果句提取部123。
重要因果句提取部123基于重要度算出部122算出的重要度,提取因果关系提取部121提取到的因果句中的、作为相似度解析部160的解析对象的因果句。具体而言,重要因果句提取部123将因果关系提取部121提取到的因果句中的、原因表现和结果表现中的至少一方的重要度为预定的阈值以上的因果句判定为相似度解析部160的解析对象。本实施方式的重要因果句提取部123提取重要度为预定的阈值以上的因果句,并提供给关键字检索部140。另外,重要因果句提取部123不提取因果关系提取部121提取到的因果句中的、重要度比预定的阈值小的因果句(不提供给关键字检索部140)。
取得部130具备关键字取得部131和询问取得部132。关键字取得部131基于对于操作部30的操作,取得表示关键字的信息。关键字是指专利文件信息41所表示的专利文件中包含的已知的单词、语句,且使因果句解析装置10判定该用户期望的专利文件时所使用的单词、语句。本实施方式的关键字取得部131取得原因表现所包含的关键字(例如“ことにより”(中文译为“通过”)、“ため”(中文译为“因为”)、“可能となり”(中文译为“成为可能”)等)、和结果表现所包含的关键字(例如“出来る”(中文译为“能够”)、“可能となる”(中文译为“成为可能”)等)这两个关键字。
询问取得部132基于对于操作部30的操作,取得表示询问(query)的信息。询问是指使因果句解析装置10判定用户期望的专利文件时所使用的句子,且至少包含原因表现和结果表现的句子(也即是因果句)。另外,在以后的说明中,将原因表现所包含的关键字和结果表现所包含的关键字的组、以及包含原因表现和结果表现的询问总称地记载为基准表现,将表示基准表现的信息记载为基准表现信息。
关键字检索部140取得取得部130所取得的基准信息。另外,关键字检索部140取得重要因果句提取部123所提取到的因果句。关键字检索部140基于基准信息,提取所取得的因果句中的、作为相似度解析部160的解析对象的因果句。具体而言,在所取得的因果句中,关键字检索部140在所取得的因果句的原因表现或者结果表现中包含基准表现的情况下,将该因果句提供给相似度解析部160。另外,在所取得的因果句中,关键字检索部140在不包含原因表现或者结果表现的情况下,不将因果句提供给相似度解析部160。
此外,重要因果句提取部123也可以为如下构成:提取重要度为预定的阈值以上的因果句,并使之保存于数据库(未图示)。在该情况下,关键字检索部140基于存储于该数据库的因果句、和取得部130所取得的基准信息,提取相似度的解析(算出)对象的因果句。由此,与每当关键字检索部140进行处理时重要因果句提取部123提取因果句的情况相比,能够减少因果句解析装置10的处理所涉及的时间。
相似判定模型构建部150在存储于数据库40的专利文件信息41中通过基于由维度压缩方法压缩后的向量的相似度模型(例如word2vec等)来构建学习模型,该学习模型针对所输入的解析对象的因果句输出表示原因表现与基准表现的相似程度的值(以下记载为原因相似度)以及表示结果表现与基准表现的相似程度的值(以下记载为结果相似度)。
相似度解析部160取得从关键字检索部140提供的因果句。相似度解析部160取得询问取得部132所取得的基准表现信息。相似度解析部160基于基准表现信息,通过学习模型对所取得的因果句的原因表现与基准表现的原因表现的相似度(以下记载为原因相似度)、以及因果句的结果表现与基准表现的结果表现的相似度(以下记载为结果相似度)进行解析(算出)。该学习模型是指相似判定模型构建部150构建的学习模型。
期望因果句提取部170基于相似度解析部160所算出的原因相似度和结果相似度,提取期望的因果句。期望的因果句例如是指原因表现与基准表现相似、且结果表现不相似的因果句。具体而言,期望因果句提取部170提取原因相似度和结果相似度中的一方为第1阈值(以下记载为阈值TH1)以上、且另一方为第2阈值(以下记载为阈值TH2)以下的因果句。在此,在阈值TH1和阈值TH2中,阈值TH1为大的值。期望因果句提取部170例如提取相似度解析部160对相似度进行了解析的因果句中的相对于基准表现的原因相似度为阈值TH1以上、且结果相似度为阈值TH2以下的因果句。期望因果句提取部170例如提取相似度解析部160对相似度进行了解析的因果句中的相对于基准表现的结果相似度为阈值TH1以上、且原因相似度为阈值TH2以下的因果句。另外,期望因果句提取部170不提取原因相似度和结果相似度均小于阈值TH1的因果句、原因相似度和结果相似度均大于阈值TH2的因果句。阈值TH1是第1阈值的一个例子。阈值TH2是第2阈值的一个例子。
优先级附加部180基于期望因果句提取部170所提取到的因果句的原因相似度和结果相似度,对因果句的提取源的专利文件附加优先级。
优先级附加部180例如对包含原因相似度高、且结果相似度低的因果句的专利文件附加高的优先级。在此,在存在多个符合条件的因果句的情况下,优先级附加部180对包含原因相似度高且结果相似度低的因果句的专利文件中的、结果相似度更低的专利文件附加高的优先级。由此,能够对一方(在该情况下为原因表现)与基准表现相似、且另一方(在该情况下为结果表现)与基准表现更不相似的专利文件附加高的优先级。优先级附加部180例如对包含结果相似度高、且原因相似度低的因果句的专利文件附加高的优先级。在此,在存在多个符合条件的因果句的情况下,优先级附加部180对包含结果相似度高且原因相似度低的因果句的专利文件中的、原因相似度更低的专利文件附加高的优先级。由此,能够对一方(在该情况下为结果表现)与基准表现相似、且另一方(在该情况下为原因表现)与基准表现更不相似的专利文件附加高的优先级。另外,优先级附加部180例如对包含原因相似度和结果相似度低的因果句的专利文件附加低的优先级。优先级附加部180将表示附加于因果句的优先级的信息提供给输出部190。
输出部190从优先级附加部180取得表示优先级的信息。输出部190基于所取得的表示优先级的信息,使显示部20显示包含期望因果句提取部170判定为是原因相似度高且结果相似度低的因果句的因果句的专利文件的图像。另外,输出部190基于所取得的表示优先级的信息,使显示部20显示包含期望因果句提取部170判定为是结果相似度高且原因相似度低的因果句的因果句的专利文件的图像。具体而言,输出部190使显示部20显示按附加了从高到低的优先级的专利文件的顺序排列了专利文件的图像。
图4是表示实施方式涉及的显示部20所显示的图像的一个例子的图。优先级附加部180例如基于原因相似度和结果相似度,对因果句附加“1”~“5”的优先级。输出部190按附加了从高到低的优先级的专利文件的顺序排列并显示专利文件(在图示的一个例子中为专利文件的申请编号)。
输出部190输出与期望因果句提取部170提取到的因果句有关的信息。
在本实施方式的一个例子中,输出部190使显示部20显示对包含相似度解析部160判定为符合判定条件的因果句的专利文件的识别信息进行表示的图像。
另外,对输出部190使显示部20显示按附加了从高到低的优先级的专利文件的顺序排列了的图像的情况进行了说明,但不限于此。输出部190例如也可以为如下构成:使显示部20显示按附加了从低到高的优先级的专利文件的顺序排列的图像。另外,输出部190也可以为如下构成:使显示部20显示表示包含相似度解析部160判定为符合判定条件的因果句的专利文件中的、附加了预定阈值以上的优先级的专利文件的图像。
另外,在上述中,对输出部190按附加了从高到低的优先级的专利文件的顺序排列并显示专利文件的情况进行了说明,但不限于此。输出部190例如也可以是如下构成:显示对附加了高优先级的专利文件加上了标志的图像。
另外,输出部190也可以是如下构成:强调附加了高优先级的专利文件来进行显示。
另外,在上述中,对输出部190使显示部20显示对包含从期望因果句提取部170取得的因果句的专利文件的识别编号(在该一个例子中为申请编号)进行表示的图像这一情况进行了说明,但不限于此。输出部190也可以是如下构成:使显示部20显示对包含从期望因果句提取部170取得的因果句的专利文件进行表示的图像。另外,输出部190也可以是如下构成:使显示部20显示对包含从期望因果句提取部170取得的因果句的专利文件在数据库40内的保存位置进行表示的信息。
[因果句解析装置的动作]
以下,参照图5对因果句解析装置10的动作的详细进行说明。
图5是表示实施方式涉及的因果句解析装置10的动作的一个例子的流程图。
因果句提取部110提取专利文件信息41所示的专利文件所包含的因果句(步骤S110)。在此,因果句提取部110将表示因果句的信息、和提取到因果句的提取源的专利文件的识别信息一并提供给噪声除去部120。噪声除去部120所具备的因果关系提取部121提取因果句提取部110提取到的因果句中的、符合预定条件的因果句(步骤S120)。
[因果关系提取部的提取因果句的例子]
以下,参照图6和图7对因果关系提取部121提取的因果句的一个例子进行说明。
图6是表示实施方式涉及的符合预定条件的因果句的一个例子的图。
图7是表示实施方式涉及的不符合预定条件的因果句的一个例子的图。
通过上述的构成,因果句提取部110从专利文件提取因果句(图示的文TX1~TX4)。在此,有时即使在因果句中按照原因表现和结果表现的顺序包含具有原因动词的原因表现、和具有结果动词的结果表现,也不是原因表现表示发明的课题、且结果表现表示发明的效果的因果句(图示的的文TX3~TX4)。因果关系提取部121基于因果句的得分(以下记载为得分SC),提取解析对象的因果句。因果关系提取部121例如通过使用了支持向量机等的教师数据的机器学习,按所提取到的各因果句,算出得分SC(图示的SC1~SC4)。在该一个例子中,因果关系提取部121提取文TX1~TX4中的、得分SC的值为正的因果句(图示的文TX1~TX2)来作为相似度解析部160的解析对象的因果句。另外,因果关系提取部121将文TX1~TX4中的、得分SC的值为负的因果句(图示的文TX3~TX4)从相似度解析部160的解析对象的因果句中排除掉。
返回图5,重要度算出部122算出因果关系提取部121提取到的因果句的重要度(步骤S130)。
[重要度算出部算出重要度的例子]
以下,参照图8对重要度算出部122算出的因果句的重要度的一个例子进行说明。
图8是表示实施方式涉及的因果句的重要度算出的一个例子的图。
如图8所示,在该一个例子中,对因果关系提取部121提取到的因果句为“粘着性物質の付着を防止することができ、メンテナンスを最小限に済ますことができる”(中文译为“能够防止粘着性物质的附着,能够最小限度地完成维护”)这一句子的情况进行说明。重要度算出部122对重要度信息51中的、表示该因果句的提取源的专利文件的重要度的信息进行参照。重要度算出部122例如将从因果句提取部110取得的专利文件的识别信息作为检索关键字,检索重要度信息51。重要度算出部122对与符合检索关键字的识别信息关联的各单词的重要度进行参照。如图8所示,在该一个例子的专利文件中,“粘着性物質”(中文译为“粘着性物质”)的重要度为“3.0”、“付着”(中文译为“附着”)的重要度为“1.0”、“防止”(中文译为“防止”)的重要度为“1.0”、“メンテナンス”(中文译为“维护”)的重要度为“5.0”、“最小限”(中文译为“最小限度”)的重要度为“3.0”、以及“済ます”(中文译为“完成”))的重要度为“0.5”。因果关系提取部121算出原因表现所包含的重要度之和(在该一个例子中为“5.0”)来作为该原因表现的重要度。另外,因果关系提取部121算出结果表现所包含的重要度之和(在该一个例子中为“8.5”)来作为该结果表现的重要度。
返回图5,重要因果句提取部123基于重要度算出部122算出的重要度,提取因果关系提取部121提取到的因果句中的、相似度解析部160的解析对象的因果句。(步骤S140)。具体而言,重要因果句提取部123在原因表现和结果表现各自的重要度为预定的阈值以上的情况下(步骤S140;是),提取该因果句来作为相似度解析部160的解析对象的因果句(步骤S150)。另外,重要度算出部122在原因表现和结果表现各自的重要度比预定的阈值小的情况下(步骤S140;否),不提取该因果句来作为相似度解析部160的解析对象的因果句(步骤S160)。
取得部130通过关键字取得部131和询问取得部132,基于对于操作部30的操作,取得表示基准表现的基准表现信息(步骤S170)。关键字检索部140判定在重要因果句提取部123提取到的因果句中是否包含取得部130所取得的基准表现信息(步骤S172)。关键字检索部140在因果句中包含基准表现信息的情况下(步骤S172;是),将该因果句判定为是相似度解析部160的解析对象的因果句(步骤S173)。另外,关键字检索部140在因果句中不包含基准表现信息的情况下(步骤S172;否),将该因果句判定为不是相似度解析部160的解析对象的因果句(步骤S174)。
相似度解析部160例如通过相似判定模型构建部150构建的学习模型,算出原因相似度和结果相似度。相似度解析部160判定从关键字检索部140取得的因果句是否为与基准表现相比原因相似度高且结果相似度低的因果句(步骤S180)。相似度解析部160在从关键字检索部140取得的因果句为与基准表现相比原因相似度高且结果相似度低的因果句的情况下(步骤S180;是),将表示该因果句的信息提供给输出部190(步骤S190)。相似度解析部160在从重要因果句提取部123取得的因果句不是与基准表现相比原因相似度高且结果相似度低的因果句的情况下(步骤S180;否),不将表示该因果句的信息提供给输出部190,使处理进入步骤S200。输出部190输出从相似度解析部160取得的表示因果句的信息。在该一个例子中,输出部190使显示部20显示对包含从相似度解析部160取得的因果句的专利文件的专利公报编号、专利公开报道的编号进行表示的图像(步骤S200)。
图9是表示实施方式涉及的因果句的输出例的图。
具体而言,图9是表示输出部190输出的因果句的一个例子的图。如图9所示,通过用户向操作部30输入因果句来作为询问,因果句解析装置10提取原因表现相似且结果表现不相似的因果句。
[记载了发明的不同种构成的专利文件的判定]
另外,相似度解析部160也可以判定是否为包含与基准表现相似的程度高的结果表现、且包含与基准表现相似的程度低的原因表现的因果句。
在该情况下,相似度解析部160判定从重要因果句提取部123取得的因果句是否为结果相似度高且原因相似度低的因果句。相似度解析部160在从重要度算出部122取得的因果句为结果相似度高且原因相似度低的因果句的情况下,将表示该因果句的信息提供给输出部190。相似度解析部160在从重要度算出部122取得的因果句不是结果相似度高且原因相似度低的因果句的情况下,不将表示该因果句的信息提供给输出部190。
[实施方式的总结]
如以上说明的那样,本实施方式的因果句解析装置10具备:因果句提取部110,其从文章提取包含原因表现和结果表现的因果句;取得部130,其取得表示基准表现的信息,该基准表现是用于对相似的程度进行解析的基准;相似度解析部160,其针对因果句提取部110提取到的因果句,算出原因相似度和结果相似度,该原因相似度是该因果句所包含的原因表现与基准表现的相似度,该结果相似度是该因果句所包含的结果表现与基准表现的相似度;期望因果句提取部170,其提取因果句所包含的原因表现和结果表现中的一方与基准表现相似、且另一方与所述基准表现不相似的因果句。本实施方式的因果句解析装置10能够对一部分相似且其他部分不相似的因果句进行判定,确定包含该因果句的专利文件。由此,本实施方式的因果句解析装置10能够确定与具有相同构成且能得到不同效果的发明有关的专利文件。另外,因果句解析装置10能够确定与能得到相同效果且具有不同构成的发明有关的专利文件。也即是,根据本实施方式的因果句解析装置10,专利文献的利用者能够提取符合期望条件的专利文件。
另外,本实施方式的因果句解析装置10具备因果关系提取部(在该一个例子中为噪声除去部120),该因果关系提取部提取因果句提取部110提取到的因果句中的、符合预定条件的因果句。噪声除去部120的因果关系提取部121提取因果句提取部110提取到的因果句中的、符合预定条件的因果句。符合预定条件的因果句例如是指原因表现表示发明的课题、且结果表现表示发明的效果的因果句。
在此,有时即使因果句提取部110提取的因果句是包含具有原因动词的原因表现、和具有结果动词的结果表现的因果句,但原因表现也不表示发明的课题,或者结果表现也不表示发明的效果。在该情况下,因果句解析装置10的判定因果句的处理负荷会增加。
与此相对,在本实施方式的因果句解析装置10中,因果关系提取部121提取因果句提取部110提取到的因果句中的、符合预定条件的因果句,将不符合预定条件的因果句从判定对象排除掉,因此,能够降低伴随着因果句判定的处理负荷。
另外,本实施方式的因果句解析装置10的重要度算出部122算出因果关系提取部121提取到的因果句的重要度。另外,重要因果句提取部123基于重要度算出部122算出的重要度,提取重要度为预定的阈值以上的因果句来作为相似度解析部160的解析对象的因果句。
在此,有时即使因果句提取部110提取的因果句是包含具有原因动词的原因表现、和具有结果动词的结果表现的因果句,也会包含对于包含该因果句的专利文件所示的技术内容来说不重要的因果句。在该情况下,因果句解析装置10的判定因果句的处理负荷会增加。
与此相对,在本实施方式的因果句解析装置10中,重要因果句提取部123将因果句提取部110提取到的因果句中的、重要度为预定的阈值以上的因果句判定为相似度解析部160的解析对象,因此,能够降低伴随着因果句判定的处理负荷。
另外,本实施方式的因果句解析装置10具备询问取得部132。本实施方式的询问取得部132取得表示通过用户作为询问而向操作部30输入的因果句的信息来作为基准表现信息。另外,相似度解析部160基于询问取得部132取得的基准表现信息,对因果句中的、一部分与基准表现相似且其他部分不相似的因果句进行判定。另外,本实施方式的因果句解析装置10具备关键字取得部131。关键字取得部131取得通过用户输入到操作部30的表示原因表现的关键字以及表示结果表现的关键字的组来作为基准表现信息。另外,相似度解析部160基于关键字取得部131取得的基准表现信息,对因果句中的、一部分与基准表现相似且其他部分不相似的因果句进行判定。
由此,本实施方式的因果句解析装置10能够输入作为因果句的判定基准的基准表现的询问或者关键字,确定用户期望的技术领域的、与具有相同构成且能得到不同效果的发明有关的专利文件。另外,本实施方式的因果句解析装置10能够输入作为因果句的判定基准的基准表现的询问或者关键字,确定用户期望的技术领域的、与能得到相同效果且具有不同构成的发明有关的专利文件。
另外,本实施方式的因果句解析装置10具备优先级附加部180。优先级附加部180对相似度解析部160进行了判定的因果句附加优先级。本实施方式的因果句解析装置10基于优先级,使相似度解析部160进行了判定后的结果显示于显示部20。在此,因果句解析装置10有时对多个专利文件判定为符合相似度解析部160的判定条件。在该情况下,专利文献的利用者有可能会花费功夫去参阅符合判定条件的专利文件。
根据本实施方式的因果句解析装置10,在显示部20按优先级从高到低的顺序显示专利文件。因此,专利文献的利用者能够简便地参阅期望的专利文件。
[因果句的重要度的算出方法]
此外,在上述中,对重要度算出部122算出因果句所包含的单词的重要度之和来作为因果句的重要度的情况进行了说明,但因果句的重要度的算出方法不限于此。重要度算出部122例如也可以算出将因果句所包含的单词的重要度之和除以该因果句所包含的单词的数量而得到的值来作为因果句的重要度。由此,重要度算出部122能够与因果句所包含的单词的数量多少无关地算出标准化后的值来作为因果句的重要度。
[噪声除去的其他构成]
另外,在上述中,对重要因果句提取部123将作为重要度为预定的阈值以上而提取到的因果句提供给相似度解析部160的情况进行了说明,但从重要因果句提取部123向相似度解析部160的信息提供的方法不限于此。重要因果句提取部123也可以是如下构成:判定因果句是否为相似度解析部160的解析对象的因果句,将表示所判定出的判定结果的信息提供给相似度解析部160。在该情况下,相似度解析部160基于从重要因果句提取部123取得的表示判定结果的信息,对该判定结果表示是相似度解析部160的解析对象这一情况的因果句进行判定。
[基准表现的提取]
另外,在上述中,对取得部130取得用户输入到操作部30的询问和/或关键字等的基准表现来作为基准表现信息的情况进行了说明,但基准表现的取得方法不限于此。因果句解析装置10例如也可以具备基于因果句来提取询问的询问提取部。询问提取部例如对与因果句的提取源的专利文件对应的重要度信息51进行参照,提取重要度高的语句来作为询问。另外,询问提取部例如提取因果句的提取源的专利文件的频繁出现语句来作为询问。由此,本实施方式的因果句解析装置10能够降低用户研究作为基准表现的询问或者关键字的工时。在该情况下,取得部130是询问提取部的一个例子。
[不进行噪声除去的情况]
另外,在上述中,对噪声除去部120从因果句提取部110提取到的因果句中排除判定对象以外的因果句的情况进行了说明,但噪声除去的方法不限于此。例如,在因果句提取部110提取到的因果句的数量少的情况下等,噪声除去部120也可以不排除判定对象以外的因果句。
另外,也可以是如下构成:对于因果句提取部110提取到的因果句,因果关系提取部121进行处理,重要度算出部122和重要因果句提取部123不进行处理。在该情况下,相似度解析部160也可以是如下构成:对因果句提取部110提取到的因果句中的、因果关系提取部121提取到的因果句进行判定。
另外,也可以是如下构成:对于因果句提取部110提取到的因果句,重要度算出部122和重要因果句提取部123进行处理,因果关系提取部121不进行处理。在该情况下,相似度解析部160也可以是如下构成:对因果句提取部110提取到的因果句中的、重要因果句提取部123判定为是相似度解析部160的解析对象的因果句进行判定。
[重要度的算出方法]
另外,在上述中,对重要度算出部122算出因果句所包含的各单词的重要度之和来作为该因果句的重要度的情况进行了说明,但重要度的算出方法不限于此。重要度算出部122例如也可以在对原因表现相似且结果表现不相似的因果句进行判定的情况下,算出原因表现所包含的单词的重要度之和来作为因果句的重要度。另外,重要度算出部122例如也可以在对结果表现相似且原因表现不相似的因果句进行判定的情况下,算出结果表现所包含的单词的重要度之和来作为因果句的重要度。由此,因果句解析装置10和因果句解析装置10能够更高精度地提取解析对象的因果句。
此外,上述的各实施方式中的因果句解析装置10、因果句解析装置10所具备的各部既可以由专用的硬件来实现,另外也可以由存储器以及微处理器来实现。
此外,因果句解析装置10、因果句解析装置10所具备的各部也可以由存储器以及CPU(中央运算装置)构成,通过将用于实现因果句解析装置10、因果句解析装置10所具备的各部的功能的程序加载到存储器并执行,从而实现其功能。
另外,也可以通过将用于实现因果句解析装置10、因果句解析装置10所具备的各部的功能的程序记录于计算机能够读取的记录介质,将记录于该记录介质的程序读入到计算机系统并加以执行,从而进行处理。此外,在此所说的“计算机系统”是指包含OS(操作系统)、外围设备等硬件的系统。
另外,若是在利用WWW系统的情况下,则“计算机系统”设为也包括主页提供环境(或者显示环境)的系统。
另外,“计算机能够读取的记录介质”是指软盘、光磁盘、ROM、CD-ROM等的可移动介质、内置于计算机系统的硬盘等存储装置。进一步,“计算机能够读取的记录介质”设为也包括如经由互联网等网络、电话线路等通信线路发送程序的情况下的通信线那样在短时间的期间动态地保持程序的介质、如该情况下的成为服务器、客户端的计算机系统内部的易失性存储器那样将程序保持一定时间的介质。另外,上述程序既可以是用于实现前述功能的一部分的程序,也可以是进一步通过与已经记录于计算机系统的程序的组合来实现前述功能的程序。
此外,在上述中,对因果句解析系统1的解析对象的文章为专利文件的情况进行了说明,但不限于此。只要是包含因果句的文件,则因果句解析系统1的解析对象的文件可以是任何文件。因果句解析系统1的解析对象的文件例如既可以是论文、报告书、说明书、规格书,也可以是这些以外的技术文章。
以上,参照附图对本发明的实施方式进行了详细的描述,但具体的构成并不限于该实施方式,能够在不脱离本发明的宗旨的范围内适宜地加以变更。也可以使上述的各实施方式所记载的构成进行组合。