CN105408896A - 信息管理装置和信息管理方法 - Google Patents

信息管理装置和信息管理方法 Download PDF

Info

Publication number
CN105408896A
CN105408896A CN201480041608.7A CN201480041608A CN105408896A CN 105408896 A CN105408896 A CN 105408896A CN 201480041608 A CN201480041608 A CN 201480041608A CN 105408896 A CN105408896 A CN 105408896A
Authority
CN
China
Prior art keywords
document data
field
management
information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480041608.7A
Other languages
English (en)
Inventor
冈野靖
折原慎吾
佐藤徹
朝仓浩志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN105408896A publication Critical patent/CN105408896A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

在信息管理装置(10)中,收集网络上的多个文档数据。接着,在信息管理装置(10)中,使用包含于收集到的各文档数据中的单词,将各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据。然后,在信息管理装置(10)中,受理成为检索对象的文档数据的领域的指定。接着,在信息管理装置(10)中,检索被赋予了与受理的领域对应的标签信息的文档数据。

Description

信息管理装置和信息管理方法
技术领域
本发明涉及信息管理装置和信息管理方法。
背景技术
以往,作为以互联网上的不特定多数的文档为对象,检索与特定单词(关键字)关联的文档数据的手段,提供有各种搜索引擎。例如,在搜索引擎中,通过受理关键字的输入,检索与关键字相关的文档数据,并输出该文档数据。
公知有从这样通过搜索引擎检索到的文档数据中仅自动地提取主要内容的技术(例如,参照专利文献1)。并且,公知有将成为检索对象的互联网上的多个文档数据分类成类似的内容彼此的技术(例如,参照专利文献2)。
现有技术文献
专利文献
专利文献1:日本特开2010-117941号公报
专利文献2:日本特许第4125951号
发明内容
发明要解决的课题
然而,在现有技术中存在如下的问题:在使用者期望的种类的文档数据与文档数据整体的量相比较少的情况下,有时无法适当地检索文档数据。例如,在想要检索如与安全相关的报导那样原本话题较少的报导的情况下,很难适当地检索类似的报导或相关的报导。
因此,本发明的目的在于,即使在使用者期望的种类的文档数据与文档数据整体的量相比较少的情况下,也可适当地检索文档数据。
用于解决课题的手段
为了解决上述课题而达到目的,信息管理装置的特征在于,该信息管理装置具有:收集部,其收集网络上的多个文档数据;赋予部,其使用包含于由所述收集部收集到的各文档数据中的单词,将所述各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据;受理部,其受理成为检索对象的文档数据的领域的指定;以及检索部,其检索被赋予了与由所述受理部受理的领域对应的标签信息的文档数据。
并且,信息管理方法是由信息管理装置执行的信息管理方法,其特征在于,该信息管理方法具有:收集步骤,收集网络上的多个文档数据;赋予步骤,使用包含于通过所述收集步骤收集到的各文档数据中的单词,将所述各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据;受理步骤,受理成为检索对象的文档数据的领域的指定;以及检索步骤,检索被赋予了与通过所述受理步骤受理的领域对应的标签信息的文档数据。
发明效果
本申请公开的信息管理装置和信息管理方法,即使在使用者期望的种类的文档数据与文档数据整体的量相比较少的情况下,也能够适当地检索文档数据,例如减少检索遗漏或不相关文档数据的混入。
附图说明
图1是示出第一实施方式的信息管理装置的结构的一例的图。
图2是示出第一实施方式的由文档数据存储部存储的信息的一例的图。
图3是对在第一实施方式的信息管理装置中将标签赋予给收集到的报导并进行基于标签的检索的一系列处理进行说明的图。
图4是用于说明第一实施方式的信息管理装置中的标签赋予处理流程的流程图。
图5是用于说明第一实施方式的信息管理装置中的信息检索处理流程的流程图。
图6是示出第二实施方式的信息管理装置的结构的一例的图。
图7是示出第二实施方式的由分领域单词列表存储部存储的信息的一例的图。
图8是对在第二实施方式的信息管理装置中参照分领域单词列表将标签赋予给报导并进行基于标签的检索的一系列处理进行说明的图。
图9是用于说明第二实施方式的信息管理装置中的标签赋予处理流程的流程图。
图10是对在第三实施方式的信息管理装置中将标签赋予给报导并进行与关键字相关的报导检索的一系列处理进行说明的图。
图11是用于说明第三实施方式的信息管理装置中的信息检索处理流程的流程图。
图12是示出执行信息管理程序的计算机的图。
具体实施方式
以下,参照附图,详细地对本发明的信息管理装置和信息管理方法的实施方式进行说明。此外,本发明不限于该实施方式。
[第一实施方式]
在以下的实施方式中,按照顺序对第一实施方式的信息管理装置和信息管理方法的处理流程进行说明,最后说明第一实施方式的效果。
[信息管理装置的结构]
对图1所示的信息管理装置10的结构进行说明。图1是用于说明第一实施方式的信息管理装置10的结构的图。如图1所示,信息管理装置10具有通信处理部11、功能部12、存储部13以及控制部14。并且,信息管理装置10与互联网连接。
通信处理部11对与互联网上的装置之间交换的各种信息相关的通信进行控制。例如,通信处理部11向互联网上的服务器请求包含报导等的文档数据,并接收文档数据。
如图1所示,存储部13具有文档数据存储部13a。存储部13例如是RAM(RandomAccessMemory:随机存取存储器)、闪存(FlashMemory)等半导体存储器元件或者硬盘、光盘等存储装置等。
文档数据存储部13a存储从互联网上的新闻网站、BBS(BulletinBoardSystem:公告牌系统)、Twitter(注册商标)等收集到的报导或投稿的文档数据。并且,文档数据存储部13a与文档数据对应地存储表示该文档数据的种类(领域)的标签信息。此外,文档数据存储部13a可以使用一般的数据库(MySQL或PostgreSQL等),其蓄积方法的种类不限于表形式或文本格式的存储等。
例如,文档数据存储部13a如图2例示,对应地存储表示文档数据内容的“报导原文”和表示报导原文种类的“标签”。这里,对于一篇报导,“标签”可以是一个,也可以是多个。举具体的例子进行说明,如图2所示,对应地存储报导原文“发现经由充电设备病毒感染智能机的脆弱性”和标签“安全、手机”。
回到图1的说明,功能部12具有收集部12a、转换部12b、赋予部12c、受理部12d以及检索部12e。这里,功能部12负责各处理,实际上以软件(的一个组件)或者中间件的形式实现。并且,控制部14对通信处理部11、功能部12以及存储部13的动作进行控制,管理信息管理装置10的动作,实际上由CPU(CentralProcessingUnit:中央处理单元)或MPU(MicroProcessingUnit:微处理单元)等集成电路等实现。
收集部12a收集网络上的多个文档数据。例如,收集部12a从互联网上的新闻网站、BBS、Twitter等收集报导。这里,关于新闻网站、BBS,收集部12a基于用户事先确定的收集对象列表,访问网站,收集报导。
并且,关于Twitter,收集部12a使用例如StreamingAPI或SearchAPI从全部Tweet取得一部分,或者基于用户事先确定的关键字或Twitter用户ID取得符合条件的Tweet。
而且,收集部12a对收集到的报导进行整理以便能够用于分析。具体而言,关于新闻或BBS,去除不必要的HTML标签、脚本或者与报导无关的广告等。
转换部12b基于由收集部12a收集到的各文档数据中包含的单词,将该文档数据转换成特征向量。具体而言,转换部12b在对收集到的报导数据进行不必要字符的去除和字符类型的统一后,进行用于将报导数据提供给机械学习引擎的特征向量转换。
这里,作为不必要字符的去除,转换部12b例如对报导数据删除多余空格或作为语言处理障碍的URL等。并且,例如,作为字符类型的统一,转换部12b对报导数据中使用的字符进行英语大写字母小写字母或所谓半角全角的统一。
并且,关于向特征向量的转换,转换部12b能够使用例如基于词素分析的方法、基于n-gram的方法、基于分隔符的方法中的任意一种。在使用基于词素分析的方法的情况下,转换部12b根据词性来分割报导数据,并将它们转换成特征向量。在这样的词素分析中,能够使用例如开源的Mecab等库。例如,在报导数据为“Twitterの使い方が、まだ、よくわからん。”的文章的情况下,转换部12b使用词素分析,将其分割成“Twitter/の/使い方/が/、/まだ/、/よく/わから/ん/。”。
并且,在使用基于n-gram的方法的情况下,转换部12b从头将报导数据逐个错开一个字符并生成n字符的组,并将它们转换成特征向量。例如,在报导数据为“Twitterの使い方が、まだ、よくわからん。”的文章的情况下,转换部12b使用n-gram(n=3),将其分割成“Twi/wit/itt/tte/ter/erの/rの使/の使い/…”。
并且,在使用基于分隔符的方法的情况下,转换部12b根据另行确定的分隔符(空格、逗号“,”等)来分割报导数据,并将它们转换成特征向量。一般来说,词素分析多用于日语文章,空格分隔多用于英语。例如,在报导数据为“Twitterの使い方が、まだ、よくわからん。”的文章且将逗号“,”指定为分隔符的情况下,转换部12b使用分隔符,将其分割成“Twitterの使い方が/まだ/よくわからん。”。
然后,转换部12b将这样被分割成要素的报导数据转换成特征向量。作为特征向量的转换手法,例如具有将各要素的出现次数直接作为特征向量的方式、不论次数而将是否出现与1或0对应的方式、进行考虑到文章整体的出现次数的加权的方式等。只要这些方式是要使用的机械学习库具备的方法,则可以使用任何方法。
赋予部12c使用包含于由收集部12a收集到的各文档数据中的单词,将各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据。具体而言,赋予部12c使用由转换部12b转换得到的特征向量,将各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据。
例如,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别。这里,将例如“安全”、“编程”、“手机”等用户关注的领域作为事先给定的类别。这里使用的机械学习引擎不论种类,都能够使用例如开源的Jubatus等。而且,赋予部12c将通过机械学习分类成的类别的标签赋予给报导数据,组合报导和标签并将其存储到文档数据存储部13a中。
受理部12d受理成为检索对象的文档数据的领域的指定。具体而言,受理部12d显示成为检索对象的文档数据的领域候选,从所显示的领域候选中受理领域的指定。
例如,当受理部12d受理了开始检索的检索指示时,作为成为检索对象的文档数据的领域候选,显示例如“安全”、“编程”、“手机”等表示领域的单词,并且,在各单词附近显示复选框。然后,受理部12d受理在复选框中标记有选中标记的单词作为指定领域。此外,受理部12d受理指定的领域数量可以是一个,也可以是多个。
检索部12e检索被赋予了与由受理部12d受理的领域对应的标签信息的文档数据。例如,在关于“安全”领域受理了检索指示的情况下,检索部12e从文档数据存储部13a中检索被赋予了“安全”标签的文档数据。然后,检索部12e显示检索到的文档数据。
此外,在关于多个领域受理了检索指示的情况下,检索部12e可以从文档数据存储部13a中检索被赋予了与全部领域对应的标签的文档数据,也可以检索全部被赋予了与多个领域中的任意领域对应的标签的文档数据。
这里,使用图3,对信息管理装置10将标签赋予给收集到的报导并进行基于标签的检索的一系列处理进行说明。图3是对在第一实施方式的信息管理装置中,将标签赋予给收集到的报导并进行基于标签的检索的一系列处理进行说明的图。如图3所示,信息管理装置10的收集部12a从互联网上的新闻网站、Twitter、BBS等收集报导等信息(参照图3的(1))。
然后,转换部12b基于包含于由收集部12a收集到的各报导中的单词,将该报导转换乘特征向量。然后,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别,并将与类别对应的标签赋予给报导等(参照图3的(2))。然后,检索部12e检索被赋予了与用户指定的领域对应的标签信息的文档数据(参照图3的(3))。
[基于信息管理装置的处理]
接着,使用图4、5,对第一实施方式的基于信息管理装置10的处理进行说明。图4是用于说明第一实施方式的信息管理装置中的标签赋予处理流程的流程图。图5是用于说明第一实施方式的信息管理装置中的信息检索处理流程的流程图。
首先,使用图4,对第一实施方式的信息管理装置10中的标签赋予处理流程进行说明。如图4所示,信息管理装置10的收集部12a从互联网上的Web网站(新闻网站、BBS、Twitter、博客等)收集报导(步骤S101)。
然后,转换部12b对收集到的报导去除不必要的字符(步骤S102)。例如,作为去除不必要的字符,转换部12b对报导数据删除多余的空格或作为语言处理障碍的URL等。
接着,转换部12b对收集到的报导统一字符类型(步骤S103)。例如,作为统一字符类型,转换部12b对报导数据中使用的字符统一英语大写字母小写字母或所谓的半角全角。
在对收集到的报导进行不必要字符的去除和字符类型的统一后,转换部12b进行用于提供给机械学习引擎的特征向量转换(步骤S104)。例如,关于向特征向量的转换,转换部12b使用基于词素分析的方法、基于n-gram的方法、基于分隔符的方法中的任意方法来分割报导,进行特征向量的转换。
接着,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别(步骤S105)。然后,赋予部12c将通过机械学习分类成的类别的标签赋予给报导数据(步骤S106)。然后,赋予部12c将收集到的报导和被赋予的类别存储到文档数据存储部13a中(步骤S107)。
接着,使用图5,对第一实施方式的信息管理装置10中的信息检索处理流程进行说明。如图5所示,当信息管理装置10的受理部12d受理了开始检索的检索指示时(步骤S201“是”),显示可成为检索对象的多个领域候选(步骤S202)。
例如,当受理部12d受理了开始检索的检索指示时,作为成为检索对象的文档数据的领域候选,显示例如“安全”、“编程”、“手机”等表示领域的单词,并且在各单词附近显示复选框。然后,受理部12d受理在复选框中标记有选中标记的单词作为指定领域。此外,受理部12d受理指定的领域数量可以是一个,也可以是多个。
然后,受理部12d判定是否从所显示的领域候选中受理了领域的指定(步骤S203)。其结果是,在判定为受理部12d从所显示的领域候选中受理了领域的指定的情况下(步骤S203“是”),检索具有与选择出的领域对应的标签的报导(步骤S204)。例如,在关于“安全”领域受理了检索指示的情况下,检索部12e从文档数据存储部13a中检索被赋予了“安全”标签的文档数据。然后,检索部12e输出检索到的报导(步骤S205)。
[第一实施方式的效果]
如上所述,在第一实施方式的信息管理装置10中,收集网络上的多个文档数据,使用包含于收集到的各文档数据中的单词,将所述各文档数据分类到每个规定的领域,并将与该领域对应的标签信息赋予给每个文档数据。然后,在信息管理装置10中,受理成为检索对象的文档数据的领域的指定,检索被赋予了与受理的领域对应的标签信息的文档数据。即使在使用者期望的种类的文档数据与文档数据整体的量相比较少的情况下,也能够适当地检索文档数据。
例如,在信息管理装置10中,从互联网上的Web网站(新闻、Twitter、BBS、博客等)收集报导,通过机械学习进行这些报导的分类/添加标签,并存储报导和标签。然后,由于能够基于赋予给报导的标签检索使用者期望的报导,因此,即使在使用者期望的种类的报导与报导整体的量相比较少的情况下,也能够基于标签信息从较多的报导中找出使用者期望的报导。
并且,在信息管理装置10中,基于包含于收集到的各文档数据中的单词,将该文档数据转换成特征向量。然后,在信息管理装置10中,使用转换后的特征向量,将各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据。因此,能够适当地对文档数据赋予标签。
并且,在信息管理装置10中,显示成为检索对象的文档数据的领域候选,从所显示的领域候选中受理领域的指定。因此,即使在如用户不知道检索关键字那样的例如是与新话题相关的报导的情况下,也能够进行检索。
[第二实施方式]
在第二实施方式中,信息管理装置可以存储与规定的领域相关的单词列表,参照单词列表将与领域对应的标签信息赋予给每个文档数据。因此,接下来,使用图6~图9,对存储与规定的领域相关的单词列表,参照单词列表从各文档数据提取单词,并基于该单词将该文档数据转换成特征向量的情况进行说明。此外,省略对与第一实施方式共同的结构和处理的说明。
首先,使用图6说明第二实施方式的信息管理装置10A的结构。图6是示出第二实施方式的信息管理装置的结构的一例的图。与图1所示的第一实施方式的信息管理装置10相比,第二实施方式的信息管理装置10A在新具有分领域单词列表存储部13b这一点上不同。
分领域单词列表存储部13b存储与规定的领域相关的分领域单词列表。例如,分领域单词列表存储部13b如图7例示的那样与领域对应地存储与各领域相关的单词列表。举图7的例子进行说明,例如,分领域单词列表存储部13b与“安全”领域对应地存储单词“脆弱性、病毒…”。图7是示出第二实施方式的由分领域单词列表存储部13b存储的信息的一例的图。这里,分领域单词列表存储部13b存储用户期望的种类的单词作为分领域单词列表。
转换部12b参照存储于分领域单词列表存储部13b中的单词列表,从各文档数据中提取单词,并基于该单词将该文档数据转换成特征向量。
例如,在对收集到的报导数据进行不必要字符的去除和字符类型的统一后,作为分领域单词提取处理,转换部12b基于预先给定的分领域单词列表,从报导原文中提取包含于各领域的列表中的单词,并将作为提取结果的单词转换成特征向量。
举具体的例子进行说明,当在报导原文为“发现经由充电设备病毒感染智能机的脆弱性”的情况下,转换部12b参照图7例示的分领域单词列表进行从报导原文中提取包含于列表中的单词的处理时,其结果是,提取出“安全”领域的单词“病毒”、“脆弱性”和“手机”领域的单词“智能机”。然后,转换部12b将“病毒”、“脆弱性”以及“智能机”转换成特征向量。
然后,与第一实施方式相同地,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别。然后,赋予部12c针对报导数据,对通过机械学习分类成的类别赋予标签,组合报导和标签并将其存储到文档数据存储部13a中。
此外,在上述的处理中,也可以省略转换成特征向量的处理,将与提取出的单词对应的领域作为标签赋予给报导数据。即,使用上述的例子进行说明,在例如进行从报导原文中提取包含于列表中的单词的处理结果为提取到“病毒”、“脆弱性”以及“智能机”的情况下,赋予部12c可以赋予与病毒和脆弱性对应的“安全”和与智能机对应的“手机”作为标签,也可以仅赋予与单词数最多的单词对应的“安全”作为标签。
这里,使用图8,对信息管理装置10A将标签赋予给收集到的报导并进行基于标签的检索的一系列处理进行说明。图8是对在第二实施方式的信息管理装置中,参照分领域单词列表将标签赋予给报导并进行基于标签的检索的一系列处理进行说明的图。如图8所示,信息管理装置10A的收集部12a从互联网上的新闻网站、Twitter、BBS等收集报导等信息(参照图8的(1))。
然后,转换部12b参照存储于分领域单词列表存储部13b中的单词列表,从各文档数据中提取单词,并基于该单词将该文档数据转换成特征向量。然后,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别,并将与类别对应的标签赋予给报导等(参照图8的(2))。然后,检索部12e检索被赋予了与用户指定的领域对应的标签信息的文档数据(参照图8的(3))。
接着,使用图9对第二实施方式的信息管理装置10A的处理进行说明。图9是用于说明第二实施方式的信息管理装置中的标签赋予处理流程的流程图。
如图9所示,信息管理装置10A的收集部12a从互联网上的Web网站(新闻网站、BBS、Twitter、博客等)收集报导(步骤S301)。然后,转换部12b对收集到的报导去除不必要的字符(步骤S302)。例如,作为去除不必要的字符,转换部12b对报导数据删除多余的空格或作为语言处理障碍的URL等。
接着,转换部12b对收集到的报导统一字符类型(步骤S303)。例如,作为统一字符类型,转换部12b对报导数据中使用的字符统一英语大写字母小写字母或所谓的半角全角。
转换部12b参照分领域单词列表从报导原文中提取包含于各领域的列表中的单词(步骤S304)。然后,进行用于提供给机械学习引擎的特征向量转换(步骤S305)。例如,关于向特征向量的转换,转换部12b使用直接使用提取到的单词的方法、基于词素分析的方法、基于n-gram的方法、基于分隔符的方法中的任意方法来分割报导,进行特征向量的转换。
接着,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别(步骤S306)。然后,赋予部12c对报导数据赋予通过机械学习分类成的类别的标签(步骤S307)。然后,赋予部12c将收集到的报导和被赋予的类别存储到文档数据存储部13a中(步骤S308)。
这样,在第二实施方式的信息管理装置10A中,存储与规定的领域相关的单词列表。然后,信息管理装置10A参照单词列表从各文档数据中提取单词,并基于该单词将该文档数据转换成特征向量。因此,在转换成特征向量时,通过使用单词列表的单词,能够进行领域更细化的分类。
[第三实施方式]
在第三实施方式中,信息管理装置可以受理与领域相关的关键字的输入,作为成为检索对象的文档数据的领域的指定,检索被赋予了与受理的关键字对应的标签信息的文档数据。因此,以下使用图10和图11,对检索与关键字相关的报导并输出类似报导的情况进行说明。此外,省略对与第一实施方式共同的结构和处理的说明。
首先,使用图10,对在第三实施方式的信息管理装置10B中,将标签赋予给报导并进行与关键字相关的报导检索的一系列处理进行说明。图10是对在第三实施方式的信息管理装置中,将标签赋予给报导并进行与关键字相关的报导检索的一系列处理进行说明的图。
如图10所示,信息管理装置10B的收集部12a从互联网上的新闻网站、Twitter、BBS等收集报导等信息(参照图10的(1))。
然后,赋予部12c将由转换部12b转换得到的特征向量提供给机械学习引擎,分类到事先给定的类别,并将与类别对应的标签赋予给报导等(参照图10的(2))。然后,受理部12d从用户受理关键字的输入(参照图10的(3))。
接着,检索部12e检索被赋予了与关键字对应的标签的报导(参照图10的(4))。例如,在被赋予了“脆弱性”作为关键字的情况下,检索被赋予了与“脆弱性”对应的标签“安全”的报导。然后,检索部12e将检索结果作为推荐结果,向用户输出与关键字相关的报导(参照图10的(5))。
接着,使用图11对第三实施方式的信息管理装置10B的处理进行说明。图11是用于说明第三实施方式的信息管理装置中的信息检索处理流程的流程图。
如图11所示,当受理开始检索的检索指示时(步骤S401“是”),信息管理装置10B的受理部12d判定是否受理了关键字的输入(步骤S402)。然后,在受理部12d受理了关键字的输入的情况下(步骤S402“是”),检索具有与关键字对应的标签的报导(步骤S403)。例如,在被赋予了“脆弱性”作为关键字的情况下,检索部12e检索被赋予了与“脆弱性”对应的标签“安全”的报导。然后,检索部12e输出检索到的报导(步骤S404)。
这样,在第三实施方式的信息管理装置10B中,受理与领域相关的关键字的输入,作为成为检索对象的文档数据的领域的指定,检索被赋予了与受理的关键字对应的标签信息的文档数据。因此,在信息管理装置10B中,能够基于用户输入的关键字适当地检索文档数据。
[系统结构等]
并且,图示的各装置的各结构要素是功能概念性的,物理上不一定要如图示那样构成。即,各装置的分散/合并的具体形式不限于图示的结构,能够根据各种负荷或使用状况等,将其全部或者一部分以任意的单位功能性或者物理性地分散/合并而构成。例如,可以合并转换部12b和赋予部12c。而且,在各装置中进行的各处理功能的全部或任意的一部分能够通过CPU和由该CPU解析执行的程序来实现,或者作为基于布线逻辑的硬件而实现。
并且,还能够手动进行在本实施例中说明的各处理中以自动进行的方式说明的处理的全部或者一部分,或者还能够以公知的方法自动进行以手动进行的方式说明的处理的全部或一部分。此外,关于上述说明书中或附图中所示的处理顺序、控制顺序、具体名称、包含各种数据或参数的信息,除去特别的情况以外能够任意地变更。
[程序]
并且,还能够将在上述实施方式中说明的信息管理装置10执行的处理制成用计算机可执行的语言描述的程序。例如,还能够将第一实施方式的信息管理装置10执行的处理制成用计算机可执行的语言来描述的信息管理程序。在该种情况下,通过计算机执行信息管理程序,能够得到与上述实施方式相同的效果。而且,还可以将该信息管理程序记录到计算机可读取的存储介质中,通过使计算机读入并执行存储于该存储介质中的信息管理程序,实现与上述第一实施方式相同的处理。以下,对执行实现与图1所示的信息管理装置10相同的功能的信息管理程序的计算机的一例进行说明。
图12是示出执行信息管理程序的计算机1000的图。如图12所示,计算机1000例如具有存储器1010、CPU1020、硬盘驱动器接口1030、盘驱动器接口1040、串行端口接口1050、显卡适配器1060以及网络接口1070,这些各部通过总线1080连接。
如图12所示,存储器1010包含ROM(ReadOnlyMemory:只读存储器)1011和RAM1012。ROM1011存储例如BIOS(BasicInputOutputSystem:基本输入输出系统)等引导程序。如图12所示,硬盘驱动器接口1030与硬盘驱动器1031连接。如图12所示,盘驱动器接口1040与盘驱动器1041连接。例如磁盘、光盘等可拆装的存储介质被插入到盘驱动器1041中。如图12所示,串行端口接口1050与例如鼠标1051、键盘1052连接。如图12所示,显卡适配器1060与例如显示器1061连接。
这里,如图12所示,硬盘驱动器1031存储例如OS1091、应用程序1092、程序模块1093以及程序数据1094。即,上述信息管理程序作为描述有由计算机1000执行的指令的程序模块存储于例如硬盘驱动器1031中。
并且,在上述实施方式中说明的各种数据作为程序数据存储于例如存储器1010或硬盘驱动器1031中。而且,CPU1020根据需要将存储于存储器1010或硬盘驱动器1031中的程序模块1093或程序数据1094读出到RAM1012中,执行各种处理顺序。
此外,信息管理程序的程序模块1093或程序数据1094不限于存储于硬盘驱动器1031的情况,也可以存储于例如可拆装的存储介质中,经由盘驱动器等由CPU1020读出。或者,信息管理程序的程序模块1093或程序数据1094也可以存储于经由互联网(LAN(LocalAreaNetwork:局域网)、WAN(WideAreaNetwork:广域网)等)连接的其它计算机中,经由网络接口1070由CPU1020读出。
标号说明
10、10A、10B:信息管理装置;
11:通信处理部;
12:功能部;
12a:收集部;
12b:转换部;
12c:赋予部;
12d:受理部;
12e:检索部;
13:存储部;
13a:文档数据存储部;
13b:分领域单词列表存储部;
14:控制部。

Claims (6)

1.一种信息管理装置,其特征在于,该信息管理装置具有:
收集部,其收集网络上的多个文档数据;
赋予部,其使用包含于由所述收集部收集到的各文档数据中的单词,将所述各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据;
受理部,其受理成为检索对象的文档数据的领域的指定;以及
检索部,其检索被赋予了与由所述受理部受理的领域对应的标签信息的文档数据。
2.根据权利要求1所述的信息管理装置,其特征在于,
该信息管理装置还具有转换部,该转换部基于包含于由所述收集部收集到的各文档数据中的单词,将该文档数据转换成特征向量,
所述赋予部使用由所述转换部转换得到的特征向量,将所述各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据。
3.根据权利要求2所述的信息管理装置,其特征在于,
该信息管理装置还具有存储部,该存储部存储与规定的领域相关的单词列表,
所述转换部参照存储于所述存储部中的单词列表,从所述各文档数据中提取单词,并基于该单词将该文档数据转换成特征向量。
4.根据权利要求1~3中的任意一项所述的信息管理装置,其特征在于,
所述受理部显示成为检索对象的文档数据的领域候选,从所显示的领域候选中受理领域的指定。
5.根据权利要求1~3中的任意一项所述的信息管理装置,其特征在于,
所述受理部受理与领域相关的关键字的输入,作为成为检索对象的文档数据的领域的指定,
所述检索部检索被赋予了与由所述受理部受理的关键字对应的标签信息的文档数据。
6.一种由信息管理装置执行的信息管理方法,其特征在于,该信息管理方法具有:
收集步骤,收集网络上的多个文档数据;
赋予步骤,使用包含于通过所述收集步骤收集到的各文档数据中的单词,将所述各文档数据分类到每个规定的领域,将与该领域对应的标签信息赋予给每个文档数据;
受理步骤,受理成为检索对象的文档数据的领域的指定;以及
检索步骤,检索被赋予了与通过所述受理步骤受理的领域对应的标签信息的文档数据。
CN201480041608.7A 2013-07-30 2014-07-24 信息管理装置和信息管理方法 Pending CN105408896A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013158200 2013-07-30
JP2013-158200 2013-07-30
PCT/JP2014/069571 WO2015016133A1 (ja) 2013-07-30 2014-07-24 情報管理装置及び情報管理方法

Publications (1)

Publication Number Publication Date
CN105408896A true CN105408896A (zh) 2016-03-16

Family

ID=52431669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480041608.7A Pending CN105408896A (zh) 2013-07-30 2014-07-24 信息管理装置和信息管理方法

Country Status (5)

Country Link
US (1) US20160170983A1 (zh)
EP (1) EP3012748A4 (zh)
JP (1) JPWO2015016133A1 (zh)
CN (1) CN105408896A (zh)
WO (1) WO2015016133A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6235082B1 (ja) * 2016-07-13 2017-11-22 ヤフー株式会社 データ分類装置、データ分類方法、およびプログラム
US11492908B2 (en) 2020-01-22 2022-11-08 General Electric Company Turbine rotor blade root with hollow mount with lattice support structure by additive manufacture
US11220916B2 (en) 2020-01-22 2022-01-11 General Electric Company Turbine rotor blade with platform with non-linear cooling passages by additive manufacture

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050045A1 (en) * 2002-08-23 2005-03-03 Hiroshi Taira Program, system and method for analyzing retrieval keyword
US20060010129A1 (en) * 2004-07-09 2006-01-12 Fuji Xerox Co., Ltd. Recording medium in which document management program is stored, document management method, and document management apparatus
CN101911067A (zh) * 2008-01-08 2010-12-08 三菱电机株式会社 信息过滤系统、信息过滤方法以及信息过滤程序
CN102016787A (zh) * 2008-02-25 2011-04-13 阿迪吉欧有限责任公司 确定所关注的域的相关信息
CN103299304A (zh) * 2011-01-13 2013-09-11 三菱电机株式会社 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10143537A (ja) * 1996-11-12 1998-05-29 Ricoh Co Ltd 文書検索処理方法
US6505150B2 (en) * 1997-07-02 2003-01-07 Xerox Corporation Article and method of automatically filtering information retrieval results using test genre
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
JP4125951B2 (ja) 2002-12-25 2008-07-30 日本電信電話株式会社 テキスト自動分類方法及び装置並びにプログラム及び記録媒体
US7761078B2 (en) * 2006-07-28 2010-07-20 Qualcomm Incorporated Dual inductor circuit for multi-band wireless communication device
US7711668B2 (en) * 2007-02-26 2010-05-04 Siemens Corporation Online document clustering using TFIDF and predefined time windows
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム
JP5110950B2 (ja) * 2007-04-26 2012-12-26 株式会社ジャストシステム 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
KR100940365B1 (ko) * 2008-04-11 2010-02-04 엔에이치엔(주) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체
JP2010026923A (ja) * 2008-07-23 2010-02-04 Omron Corp 文書分類方法、文書分類装置、文書分類プログラム、および、コンピュータ読取り可能記録媒体
JP5317638B2 (ja) 2008-11-13 2013-10-16 日本電信電話株式会社 Web文書主要コンテンツ抽出装置及びプログラム
US8566349B2 (en) * 2009-09-28 2013-10-22 Xerox Corporation Handwritten document categorizer and method of training
JP5448105B2 (ja) * 2009-12-09 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム
US8725739B2 (en) * 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
JP5639490B2 (ja) * 2011-02-03 2014-12-10 ニフティ株式会社 タグ推薦装置
CN102737057B (zh) * 2011-04-14 2015-04-01 阿里巴巴集团控股有限公司 一种商品类目信息的确定方法及装置
US8977613B1 (en) * 2012-06-12 2015-03-10 Firstrain, Inc. Generation of recurring searches
US9235812B2 (en) * 2012-12-04 2016-01-12 Msc Intellectual Properties B.V. System and method for automatic document classification in ediscovery, compliance and legacy information clean-up

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050050045A1 (en) * 2002-08-23 2005-03-03 Hiroshi Taira Program, system and method for analyzing retrieval keyword
US20060010129A1 (en) * 2004-07-09 2006-01-12 Fuji Xerox Co., Ltd. Recording medium in which document management program is stored, document management method, and document management apparatus
CN101911067A (zh) * 2008-01-08 2010-12-08 三菱电机株式会社 信息过滤系统、信息过滤方法以及信息过滤程序
CN102016787A (zh) * 2008-02-25 2011-04-13 阿迪吉欧有限责任公司 确定所关注的域的相关信息
CN103299304A (zh) * 2011-01-13 2013-09-11 三菱电机株式会社 分类规则生成装置、分类规则生成方法、分类规则生成程序以及记录介质

Also Published As

Publication number Publication date
EP3012748A1 (en) 2016-04-27
US20160170983A1 (en) 2016-06-16
WO2015016133A1 (ja) 2015-02-05
JPWO2015016133A1 (ja) 2017-03-02
EP3012748A4 (en) 2017-05-10

Similar Documents

Publication Publication Date Title
CN107657048B (zh) 用户识别方法及装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
CN105677764A (zh) 信息提取方法和装置
US20090276378A1 (en) System and Method for Identifying Document Structure and Associated Metainformation and Facilitating Appropriate Processing
CN102799610A (zh) 网络信息收藏方法及系统
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
US20120323918A1 (en) Method and system for document clustering
CN110147223B (zh) 组件库的生成方法、装置及设备
CN105408896A (zh) 信息管理装置和信息管理方法
CN111178701A (zh) 一种基于特征衍生技术的风险控制方法方法、装置和电子设备
CN104899203A (zh) 一种网页页面的生成方法、装置及终端设备
CN114036921A (zh) 一种政策信息匹配方法和装置
CN112487181B (zh) 关键词确定方法和相关设备
CN109740130B (zh) 用于生成文件的方法和装置
CN115952258A (zh) 政务标签库的生成方法、政务文本的标签确定方法和装置
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
WO2016013209A1 (ja) 文集合抽出システム、方法およびプログラム
CN110704617B (zh) 新闻文本的分类方法、装置、电子设备和存储介质
CN110574102B (zh) 信息处理系统、信息处理装置、记录介质以及词典数据库的更新方法
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
CN114385794A (zh) 企业知识图谱的生成方法、装置、设备和存储介质
KR20220074571A (ko) 마케팅 지식 그래프의 채널 기반 정보 수집을 위한 딥러닝 sns 콘텐츠 임베딩 방법 및 그 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160316

WD01 Invention patent application deemed withdrawn after publication