JP6714276B2 - 情報抽出装置、情報抽出方法及びプログラム - Google Patents

情報抽出装置、情報抽出方法及びプログラム Download PDF

Info

Publication number
JP6714276B2
JP6714276B2 JP2016199732A JP2016199732A JP6714276B2 JP 6714276 B2 JP6714276 B2 JP 6714276B2 JP 2016199732 A JP2016199732 A JP 2016199732A JP 2016199732 A JP2016199732 A JP 2016199732A JP 6714276 B2 JP6714276 B2 JP 6714276B2
Authority
JP
Japan
Prior art keywords
data
information
similarity
image data
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016199732A
Other languages
English (en)
Other versions
JP2018063463A (ja
Inventor
清彦 岩井
清彦 岩井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spectee Inc
Original Assignee
Spectee Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spectee Inc filed Critical Spectee Inc
Priority to JP2016199732A priority Critical patent/JP6714276B2/ja
Publication of JP2018063463A publication Critical patent/JP2018063463A/ja
Application granted granted Critical
Publication of JP6714276B2 publication Critical patent/JP6714276B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネットに接続された各種サーバ上に存在する特定の投稿情報を抽出する情報抽出装置、情報抽出方法及びプログラムに関する。
インターネット上には多種多様の投稿情報が存在しており、その中から特定の情報を抽出し利用する技術が開発されている(例えば特許文献1〜3参照)。特許文献1に記載の方法では、配信された所定のコンテンツに関する情報に含まれる語句に基づいて投稿情報を収集し、コンテンツの配信開始に応じた時点から所定時間内に投稿された投稿情報の投稿数の時間変化に基づいて、コンテンツに対する反応を解析している。
また、特許文献2に記載の方法では、投稿情報に含まれる地理的情報に基づいてスポットに関連する投稿情報を選別すると共に、投稿情報に含まれる文言に基づいてイベントに関連する投稿情報を選別した後、それらを分析してイベント名称及び開催スポット名称とを含むイベント情報を抽出している。更に、特許文献3に記載の方法では、複数の情報を収集し、先だって収集された要否が分かっている情報に基づいて各情報の必要性の程度を示す値を算出して、その値が所定値以上であるか否かで各情報の要否を判定している。
特開2015−225585号公報 特開2016−024545号公報 特開2016−076172号公報
しかしながら、従来の投稿情報抽出方法は、投稿情報に含まれる文章や発言中に特定の単語が含まれているか否かで、その投稿情報の抽出の有無を判定しているため、抽出精度が低いという問題点がある。一方、特許文献3に記載の情報抽出装置では、教師あり学習により作成された学習モデルを用いて、形態素解析などの手法により収集した情報を数値化しているが、この方法も、設定されたキーワードにより収集した情報を、文字情報のみを用いて要否判断しているため、抽出精度を十分に高めることはできない。
そこで、本発明は、インターネットに接続された各種サーバ上に存在する様々な投稿情報の中から、特定の投稿情報を、精度良く抽出することが可能な情報抽出装置、情報抽出方法及びプログラムを提供することを目的とする。
本発明者は、前述した課題を解決するために鋭意検討を行った結果、文字データなどの一部のデータだけでなく、画像データや付随データなど投稿情報に含まれるデータの全てを利用し、目的の情報か否かを総合的に判断することにより、抽出精度を大幅に向上できることを見出し、本発明に至った。
即ち、本発明に係る情報抽出装置は、インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集部と、前記投稿情報収集部で収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分部と、前記データ仕分部で仕分けられた画像データを学習データに基づいて処理し、複数区分に対する前記画像データの類似度を算出する画像データ処理部と、前記データ仕分部で仕分けられた文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する前記文字データの類似度を算出する文字データ処理部と、前記データ仕分部で仕分けられた付随データを数値化する付随データ処理部と、前記画像データ処理部で算出された複数区分に対する画像データの類似度、前記文字データ処理部で算出された複数区分に対する文字データの類似度及び前記付随データ処理部で生成された付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理部とを備える。
本発明の情報抽出装置は、更に、前記統合処理部で算出された値に基づいて、前記投稿情報を抽出するか否かを判定する抽出判定部を備えていてもよい。
また、前記画像データ処理部は、投稿画像のデータとその他の画像のデータを、それぞれ異なる学習データに基づいて処理し、画像データ毎に複数区分に対する類似度を算出することもできる。
一方、前記文字データ処理部は、前記自然言語処理により前記文字データの感情分析を行ってもよい。
前記文字データ処理部は、更に、前記文字データをハッシュ処理して数値化し、前記統合処理部において、複数区分に対する文字データの類似度と共に前記文字データに対応する数値も統合することもできる。
前記統合処理部は、統計処理、機械学習又はその両方により、抽出対象情報との類似度合いを算出してもよい。
本発明における前記付随データは、例えば投稿記事に関する各種データ及投稿者に関する各種データのうち1種又は2種以上である。
本発明に係る情報抽出方法は、1又は複数の情報抽出装置を用いて特定の投稿情報を抽出する方法であって、前記情報抽出装置により、インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集工程と、収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分工程と、前記投稿情報に画像データが含まれる場合は、学習データに基づいて前記画像データを処理し、複数区分に対する前記画像データの類似度を算出する画像データ処理工程と、前記投稿情報に文字データが含まれる場合は、前記文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する前記文字データの類似度を算出する文字データ処理工程と、前記投稿情報に付随データが含まれる場合は、前記付随データを数値化する付随データ処理工程と、前記複数区分に対する画像データの類似度、前記複数区分に対する文字データの類似度及び前記付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理工程とを行う。
本発明に係る情報抽出プログラムは、コンピュータに、インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集機能と、収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分機能と、前記投稿情報に画像データが含まれる場合は、学習データに基づいて前記画像データを処理し、複数区分に対する前記画像データの類似度を算出する画像データ処理機能と、前記投稿情報に文字データが含まれる場合は、前記文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する前記文字データの類似度を算出する文字データ処理機能と、前記投稿情報に付随データが含まれる場合は、前記付随データを数値化する付随データ処理機能と、前記複数区分に対する画像データの類似度、前記複数区分に対する文字データの類似度及び前記付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理機能とを実行させるものである。
本発明によれば、投稿情報に含まれる複数種のデータを収集し、その中でも主要なデータである画像データ及び文字データについては、特定情報を抽出するための事前判定を行い、更に、全てのデータを統合した後で抽出対象情報との類似性を示す値を算出しているため、インターネットに接続された各種サーバ上に存在する様々な投稿情報の中から、目的とする投稿情報を、精度良く抽出することができる。
本発明の第1の実施形態に係る情報抽出装置の構成例を示すブロック図である。 投稿情報収集部11により収集される投稿情報の一例を模式的に示す図である。 図1に示す情報抽出装置1を用いて投稿情報を解析し、抽出対象情報であるか否かを判定する方法を示すフローチャートである。 図2に示す投稿情報20に含まれる各データの数値を統合処理して、抽出対象情報との類似性を示す値を算出する方法を概念的に示す図である。 本発明の第2の実施形態に係る情報抽出システムの構成例を示す概念図である。
以下、本発明を実施するための形態について、添付の図面を参照して、詳細に説明する。なお、本発明は、以下に説明する実施形態に限定されるものではない。
(第1の実施形態)
先ず、本発明の第1の実施形態に係る情報抽出装置について説明する。図1は本実施形態の情報抽出装置の構成例を示すブロック図である。図1に示すように、本実施形態の情報抽出装置1は、インターネットに接続された各種サーバ上に存在する様々な投稿情報の中から、特定の投稿情報を抽出するものであり、投稿情報収集部11、データ仕分部12、画像データ分類部13、文字データ分類部14、付随データ処理部15及び統合処理部16を備えている。この情報抽出装置1には、更に抽出判定部17が設けられていてもよい。
[投稿情報収集部11]
投稿情報収集部11は、インターネットを介して、複数種のデータで構成される任意の投稿情報を収集するものである。即ち、投稿情報収集部11では、1つの投稿情報について、文字データ、画像データ及び付随データなど複数種のデータを取得する。従来の情報抽出方法では、投稿情報が複数のデータで構成されている場合でも、文字データのみを取得して解析を行っていたが、本実施形態の情報抽出装置1では、文字データだけでなく、画像データや付随データなどの投稿情報に関する各種データを取得して、抽出の判定に用いる。
投稿情報収集部11により収集される投稿情報は、インターネットを介して収集可能なものであればよく、例えばSNS(Social Networking Service)、ブログ、電子掲示板(Bulletin Board System:BBS)などに投稿された情報などが挙げられる。
図2は投稿情報収集部11により収集される投稿情報の一例を模式的に示す図である。例えば、図2に示す投稿情報20に関して取得するデータとしては、本文21、付帯画像22、プロフィール画像23、ユーザー名24、アカウント名25、投稿時間26、シェア、引用及びリツイートなどのアクション数27、「いいね!」などの投稿に対する反応数28、その他画面上には表示されない投稿記事や投稿者に関するデータなどが挙げられる。そして、投稿情報収集部11は、原則、投稿情報に含まれるデータのうち取得可能なものは全て取得する。
[データ仕分部12]
データ仕分部12は、投稿情報収集部11で収集した投稿情報に含まれる各種データを、種類別に仕分けするものである。投稿情報に含まれる各種データを仕分ける基準は、特に限定されるものではないが、一般的な投稿情報であれば、例えば「画像データ」と、「文字データ」と、「付随データ」に仕分けられる。
ここで、投稿情報に含まれる「画像データ」としては、例えば、付帯画像などの投稿された画像のデータ(以下、投稿画像データという。)及びプロフィール画像データなどがある。また、「文字データ」としては、例えば、投稿本文データ及びコメントデータなどがある。「付随データ」としては、例えば、アカウント名、ユーザー名、ユーザーID、ユーザー紹介文、フォロー数及びフォロワー数などの投稿者に関する各種データ、並びに、投稿日時及び投稿に対するアクションや反応の数などの投稿記事に関する各種データが挙げられる。
なお、投稿情報収集部11で収集する投稿情報は、画像データ、文字データ及び付随データの全てが含まれているとは限らない。その場合は、投稿情報に含まれているデータのみ仕分けすればよい。例えば、投稿情報に画像データが含まれていない場合は、データ仕分部12は文字データと付随データに仕分ける。また、投稿情報に文字データが含まれていない場合は、画像データと付随データに仕分ける。
[画像データ処理部13]
画像データ処理部13は、データ仕分部12で仕分けられた画像データを、機械学習の手法を用いて取得した学習データ(画像の特徴)に基づいて処理し、複数の区分に対する類似度を算出する。具体的には、画像データ処理部13では、処理対象の画像データ全体から特徴量を抽出し、それを各区分の学習データと比較して、それぞれの学習データとの一致率(その区分に対する類似度)を算出する。
ここで、画像の区分としては、人物の有無及びその撮影方法、風景や背景の種類、撮影された状況や場面(シーン)などが挙げられるが、これらに限定されるものではなく、目的に応じて任意に設定することが可能である。
一方、投稿情報に投稿画像データ以外の画像データが含まれている場合は、画像データ処理部13において、投稿画像データとその他の画像データを、それぞれ異なる学習データを用いて処理し、画像毎に複数区分に対する類似度を算出してもよい。例えば、投稿情報に「投稿画像」と「プロフィール画像」の2種類の画像データが含まれている場合は、投稿画像データについては抽出対象情報か否かを判定する目的で複数の区分を設定し、プロフィール画像については信頼できる情報か否かを判定する目的で複数の区分を設定して、それぞれ類似度を算出する。
このように画像データ処理部13では、画像データを単純に数値化するのではなく、機械学習の手法を適用し、特定の情報を抽出するというユーザーの目的意志を反映した数値(類似度)を生成している。これにより、後述する統合処理部16において算出される抽出対象情報との類似性を示す値の精度、更には、抽出判定部17における判定結果の精度を高めることができる。
なお、本実施形態の情報抽出装置1では、画像データ処理部13を複数設け、複数種の画像データについて、並行して類似度を算出することもできる。また、画像データ処理部13で用いる機械学習の手法は、特に限定されるものではなく、公知のアルゴリズムを用いて実施することができるが、判定精度向上の観点からは、深層学習(ディープラーニング)を用いることが好ましい。
[文字データ処理部14]
文字データ処理部14は、データ仕分部12で仕分けられた文字データを処理して、複数区分に対する類似度を算出する。複数区分に対する文字データの類似度を算出する方法は、特に限定されるものではないが、例えば機械学習の手法を用いて取得した学習データに基づいた処理や自然言語処理を適用することができる。
学習データに基づいた処理又は自然言語処理により、複数区分に対する文字データ類似度を算出する場合は、文字データの一部を抜き出して判定するのではなく、文字データ全体(文章全体)で判定することが好ましい。これにより、抽出漏れをなくし、判定精度を高めることができる。
ここで、文字データの区分としては、記事の種類や真偽、事件性の有無、広告投稿であるか否かなどが挙げられるが、これらに限定されるものではなく、目的に応じて任意に設定することが可能である。例えば、自然言語処理により文字データの感情分析を行い、「ネガティブ記事」及び「ポジティブ記事」である確率(それぞれの区分に対する類似度)を算出してもよい。
前述した画像データに加えて、文字データについても、記事や発言の内容の分析結果を反映した数値(類似度)を得ることにより、抽出精度を大幅に高めることができる。
なお、文字データは、複数区分に対する類似度の算出と併せて、ハッシュ処理を行ってもよい。文字データをハッシュ化する際は、判定精度向上の観点から、データの一部ではなく、データ全体(文章全体)を処理することが好ましい。このように、1つの文字データについて、類似度とハッシュ値の両方を算出することにより、対象となる記事や発言を特定しやすくなると共に、投稿情報を総合的に判定することが可能となる。また、本実施形態の情報抽出装置1では、2以上の文字データ処理部14を並列又は直列に接続し、1つの文字データについて類似度の算出とハッシュ処理を別々に行ってもよい。
[付随データ処理部15]
付随データ処理部15は、データ仕分部12で仕分けられた各種付随データを数値化するものである。数値化の方法は、特に限定されるものではなく、例えば付随データが数字の場合はそのまま使用し、文字や記号の場合はハッシュ処理して数値(ハッシュ値)にすればよい。なお、ハッシュ処理の方法やハッシュ関数の種類は、特に限定されるものではなく、公知の手法を適用することができる。
また、数値化する付随データの数も限定されず、投稿者に関する各種データ及び投稿記事に関する各種データの中から、適宜選択して処理することができるが、抽出精度向上の観点からは、投稿情報収集部11で取得した全ての付随データを数値化することが好ましい。付随データには、投稿者や投稿記事に関する情報が含まれているので、画像データ及び文字データだけでなく、付随データも数値化し、抽出対象情報か否かの判定に用いることにより、目的とする投稿情報の抽出精度を更に高めることができる。
[統合処理部16]
統合処理部16は、画像データ処理部13で生成された画像データの類似度、文字データ処理部14で生成された文字データの類似度、及び付随データ処理部15で生成された数値(ハッシュ値)のうち2種以上の数値を統合し、抽出対象情報との類似性を示す値を算出する。これらの数値の統合方法は、特に限定されるものではないが、例えば統計処理、機械学習又はその両方を適用することができる。
なお、各数値を統合する際は、各データを同等に扱ってもよいが、画像データや文字データなど、一部のデータの比率を高めて統合することもできる。また、統合処理部16では、少なくとも2種類の数値を統合すればよいが、抽出精度向上の観点から、取得されたデータから生成された全ての数値を統合して類似性を示す値を算出することが好ましい。
[抽出判定部17]
抽出判定部17は、統合処理部16で算出された抽出対象情報との類似性を示す値に基づいて、その投稿情報が抽出対象情報であるか否か、又はその情報を抽出するか否かを判定するものである。その判定方法は、特に限定されるものではないが、例えば、抽出対象情報との類似性を示す値が設定値(閾値)以上を超えた場合に、「抽出対象情報である」と判定する。なお、抽出判定部17は、別装置に設けられていてもよい。
[その他]
本実施形態の情報抽出装置1には、更に、前述した各部での処理結果を一時的に記憶する記憶部、機械学習に用いる学習データを格納する学習データ格納部、判定結果を出力する出力部、判定結果を表示する表示部などが設けられていてもよい。
[動作]
次に、本実施形態の情報抽出装置1の動作、即ち、本実施形態の情報抽出装置1を用いて特定の投稿情報を抽出する方法について、図2に示す投稿情報20を用いて、抽出対象が「事件」に関する投稿情報である場合を例にして説明する。
図3は図1に示す情報抽出装置1を用いて投稿情報を解析し、抽出対象情報であるか否かを判定する方法を示すフローチャートである。図3に示すように、本実施形態の情報抽出方法では、投稿情報収集工程S1及びデータ仕分工程S2をこの順に行った後、画像データ処理工程S3a及び/又は文字データ処理工程S3b及び/又は付随データ処理工程S3cを行って、統合処理工程S4を行う。また、必要に応じて、統合処理工程S4の後に抽出判定工程S5を行う。
[投稿情報収集工程S1]
先ず、投稿情報収集部11により、インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する(投稿情報収集工程S1)。本実施形態の情報抽出装置1で解析される投稿情報は、例えばインターネットに接続されている各種ソーシャルメディアのサーバなどから収集することができ、画像データ、文字データ及びこれらに付随するデータなど複数のデータを含むものであれば、種類、サイズ及び形式などは限定されない。
図2に示す投稿情報20は、本文21、付帯画像22、プロフィール画像23、ユーザー名24、アカウント名25、投稿時間26、アクション数27及び反応数28のデータを含み、投稿情報収集部11はその全データを収集する。
[データ仕分工程S2]
次に、データ仕分部12において、投稿情報収集部11で収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分ける(データ仕分工程S2)。図2に示す投稿情報20の場合は、「画像データ」には付帯画像22及びプロフィール画像23のデータが仕分けられ、「文字データ」には本文21のデータが仕分けられ、「付随データ」にはユーザー名24、アカウント名25、投稿時間26、アクション数27及び反応数28が仕分けられる。そして、仕分けられた各データは、それぞれ画像データ処理部13、文字データ処理部14及び付随データ処理部15に送られる。
[画像データ処理工程S3a]
そして、画像データ処理部13において、学習データに基づいて各画像データを処理し、複数区分に対する類似度を算出する(画像データ処理工程S3a)。図2に示す投稿情報20の場合は、機械学習の手法を用いて取得した学習データ(画像の特徴)に基づいて、付帯画像22のデータ及びプロフィール画像23のデータを処理し、複数区分に対する各画像データの類似度を算出する。
その際、付帯画像22のデータとプロフィール画像23のデータとは、それぞれ異なる判定基準(画像の特徴)で作成された学習データを用いて判定される。付帯画像22は、事件性の有無の観点から、例えば「自然災害」、「交通事故」、「デモ」、「火災」、「その他」の5つの区分について、類似度(それぞれの学習データとの一致率)を算出する。この区分設定の場合、「交通事故」や「火災」で高い値を示したものは、事件に関する投稿情報の可能性がある。
一方、プロフィール画像23は、投稿記事の信頼性の観点から、例えば「人物写真」及び「人工画像」の2つの区分について、類似度(それぞれの学習データとの一致率)を算出する。この区分設定の場合、「人物写真」の数値が高いと通常の投稿の可能性が高く、また、「人工画像」の数値が高いと機械による自動発言(bot)のように信頼性が低い投稿情報の可能性がある。
なお、画像データ処理工程S3aでは、各画像データの類似度を算出した後、その画像データがどの区分に属する可能性が高いか判定を行い、その結果を数値化してもよい。また、画像データ処理工程S3aは、投稿情報に画像データが含まれる場合にのみ実施すればよく、投稿情報が画像データを含まない場合は実施しなくてもよい。
[文字データ処理工程S3b]
また、文字データは、文字データ処理部14において処理し、複数区分に対する類似度を算出する(文字データ処理工程S3b)。図2に示す投稿情報20の場合は、本文21の全文字データを、機械学習の手法を用いて取得した学習データに基づいて処理するか、又は自然言語処理する。
本文21のデータは、事件性の有無の観点から、例えば「ポジティブ」及び「ネガティブ」の2つの区分で類似度(それぞれの学習データとの一致率)を算出する。この区分設定の場合、「ネガティブ」で高い値を示したものは、事件に関する投稿情報の可能性がある。このような文字データの解析は、機械学習を用いた感情判定又は自然言語処理による感情分析で行うことができる。
更に、文字データ処理工程S3bでは、前述した類似度の算出と併せて、ハッシュ処理による文字データの数値化(ハッシュ化)を行ってもよい。この場合、本文21のデータに対しては、「ポジティブ」及び「ネガティブ」の2つの区分に対する類似度と、ハッシュ値の2種類の数値が生成する。なお、文字データをハッシュ化する際も、判定精度向上の観点から、データの一部ではなく、データ全体(文章全体)を処理することが好ましい。
なお、文字データ処理工程S3bでは、文字データの類似度を算出した後、その文字データがどの区分に属する可能性が高いか判定を行い、その結果を数値化してもよい。また、文字データ処理工程S3bは、投稿情報に文字データが含まれる場合にのみ実施すればよく、投稿情報が文字データを含まない場合は実施しなくてもよい。
[付随データ処理工程S3c]
付随データは、付随データ処理部15において数値化する(付随データ処理工程S3c)。図2に示す投稿情報20の場合は、ユーザー名24及びアカウント名25の各データについては、公知のハッシュ関数を用いてハッシュ処理し、数値(ハッシュ値)を得る。また、投稿時間26、アクション数27及び反応数28の各データについては、その数値をそのまま使用する。
[統合処理工程S4]
そして、統合処理部16において、画像データ処理部13で生成された数値(類似度)、文字データ処理部14で生成された数値(類似度)及び付随データ処理部15で生成された数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する(統合処理工程S4)。
統合処理工程S4は、例えば全てのパラメータ(各部で生成した各データに対応する数値)をN次元行列として扱い、それを統計処理、機械学習又はその両方を行うことで実施することができる。なお、統計処理と機械学習の両方を行う場合は、統計処理した後で機械学習しても、統計処理の前に機械学習しても、どちらでもよい。
また、統計処理の方法としては、例えばマハラノビス距離を用いた統計処理が挙げられる。マハラノビス距離による統計処理では、ベクトル(点)の各要素の広がりやばらつきの程度を考慮し、重心点から各点への距離を求める。この方法を用いると、抽出対象情報との類似性を示す値は、収集された投稿情報と抽出対象情報との距離(マハラノビス値)として算出される。一方、機械学習を用いた場合は、抽出対象情報との類似性を示す値は、「抽出対象情報」及び「非抽出対象情報」それぞれに対する投稿情報の一致率として算出される。
図4は図2に示す投稿情報20に含まれる各データの数値を統合処理して、抽出対象情報との類似性を示す値を算出する方法を概念的に示す図である。図2に示す投稿情報20は、その構成データ(画像データ、文字データ、付随データ)に対応する数値によって、例えば図4に示すような12次元のベクトルで表される。そして、この12次元のベクトルを、統計処理するか又は機械学習して、抽出対象情報との類似性を示す値を算出する。
なお、図4では、投稿情報を12次元のベクトルで表しているが、本発明はこれに限定されるものではなく、データ数を増やして13次元以上のベクトルとしてもよく、それにより抽出精度を更に向上させることができる。また、統合処理する際は、各データを全て同等に扱ってもよいが、一部のデータに重みを持たせてもよい。
[抽出判定工程S5]
その後、抽出判定部17において、統合処理部16で算出された類似性を示す値に基づいて、その投稿情報が抽出対象情報であるか否か、又はその情報を抽出するか否かを判定する(抽出判定工程S5)。その判定の方法は、特に限定するものではないが、例えば図4に示す方法で統計処理により類似性を示す値を算出した場合、閾値(例えば「5」など)を設定し、類似性を示す値が閾値を超えた場合は「事件に関する投稿の可能性が高い」と判定し、出力する。
また、図4に示す方法で機械学習により類似性を示す値(「事件に関する投稿情報」及び「事件以外の投稿情報」それぞれの確率)を算出した場合は、「事件に関する投稿情報」の確率(一致率)が閾値(例えば「0.5」など)を超えたときに、「抽出対象情報である」又は「その情報を抽出する」と判定し、出力する。なお、この抽出判定工程S5は、統合処理工程S4から連続して行ってもよいが、類似性を示す値を一旦記憶しておき、その他の工程とは別に行うこともできる。
前述した各工程は、情報抽出装置の各機能を実現するためのコンピュータプログラムを作成し、1又は2以上のコンピュータに実装することにより実施することができる。
即ち、本実施形態の情報抽出方法は、以下の機能をコンピュータに実行させるプログラムにより実行することができる。
(1)インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集機能
(2)収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分機能
(3a)投稿情報が画像データを含む場合は、学習データに基づいて前記画像データを処理し、複数区分に対する画像データの類似度を算出する画像データ処理機能
(3b)投稿情報が文字データを含む場合は、文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する文字データの類似度を算出する文字データ処理機能
(3c)投稿情報の付随データを数値化する付随データ処理機能
(4)複数区分に対する画像データの類似度、複数区分に対する文字データの類似度及び付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理機能
なお、前述した各機能は、一のプログラムに搭載されている必要はなく、機能毎にプログラムを作成し、それらを連動させることにより実行してもよい。その場合、各プログラムを2台以上のコンピュータ又は装置に分割して実装し、動作させることもできる。
以上詳述したように、本実施形態の情報抽出装置は、文字データだけでなく、画像データや付随データなどの投稿情報に関する全てのデータを用いて、その情報を抽出するか否かを総合的に判断しているため、目的の情報を正確に抽出することができる。従来も、複数のデータを用いる手法は提案されているが、そのような従来の手法では、判断に影響するデータのみを選択して利用している。これに対して、本実施形態の情報抽出装置では、判断に影響しないものも全て利用し、複数の情報から総合的に判断する人間の脳を模倣するような処理を行っているため、より人間に近い判断結果を得ることができる。
更に、本実施形態の情報抽出装置では、投稿情報に含まれるデータの中でも特に重要な画像データと文字データについては、単純に数値化するのではなく、機械学習や自然言語処理を用いて人間の意思を反映させた形で数値化し、それを他のデータの数値と統合した後、総合的に判定しているため、投稿情報の抽出精度を飛躍的に向上させることができる。
例えば、図2に示す投稿情報20の場合は、本文21に「火事」という単語が含まれており、付帯画像22にも「しょうぼうしゃ」という文字が含まれているため、従来の手法では、「事件に関する投稿情報」と判定される可能性が高い。これに対して、本実施形態の情報抽出装置では、人間の意思を反映させた類似度とその他の数値を統合して総合的に判定しているため、「事件以外の投稿情報」であると正しく判定することが可能である。
(第2の実施形態)
次に、本発明の第2の実施形態に係る情報抽出システムについて説明する。本発明の情報抽出方法は、複数の装置を用いて実施することもできる。図5は本実施形態の情報抽出システムの構成例を示す概念図である。図5に示すように、本実施形態の情報抽出システム2は、情報収集仕分装置5、画像データ処理装置6a、文字データ処理装置6b、付随データ処理装置6c及び統合処理装置7を備え、インターネット3に接続された各種サーバ4a,4b上から投稿情報を収集し、特定の投稿情報を抽出する。
具体的には、情報収集仕分装置5により、インターネットを介して、複数種のデータで構成される任意の投稿情報を収集し、その投稿情報の各データを、画像データと、文字データと、付随データに仕分ける。そして、仕分けられた各データは、画像データ処理装置6a、文字データ処理装置6b又は付随データ処理装置6cに送られる。
画像データ処理装置6aでは、画像データを学習データに基づいて処理し、複数区分に対する類似度を算出する。文字データ処理装置6bでは、文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する類似度を算出する。付随データ処理装置6cでは、付随データを数値化する。画像データ処理装置6a、文字データ処理装置6b及び付随データ処理装置6cで生成された各数値は、統合処理装置7に送られる。
統合処理装置7では、画像データ処理装置6aで算出された複数区分に対する画像データの類似度、文字データ処理装置6bで算出された複数区分に対する文字データの類似度及び付随データ処理装置6cで生成された付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する。なお、統合処理装置7では、算出された値に基づいて、その投稿情報が抽出対象情報であるか否か、又はその情報を抽出するか否かを判定することもできる。
本実施形態の情報抽出システムは、投稿情報に含まれる複数種のデータを収集し、その中でも主要なデータである画像データ及び文字データについて機械学習や自然言語処理によって事前判定を行った後、全てのデータを統合して抽出対象情報との類似性を示す値を算出している。これにより、投稿情報の抽出精度を飛躍的に向上させることができ、より人間に近い判断結果を得ることができる。
なお、図5には、情報収集とデータ仕分けを1つの装置で行い、各データの処理をそれぞれ別の装置で行う場合のシステム構成を示しているが、本発明はこれに限定されるものではなく、装置構成は、データの数や装置の処理速度などに応じて、適宜選択することができる。具体的には、工程毎に別の装置で行ってもよく、また、各データの処理を1つの装置で行ってもよい。また、本実施形態の情報抽出システムにおける上記以外の構成及び効果は、前述した第1の実施形態と同様である。
1 情報抽出装置
2 情報抽出システム
3 インターネット
4a、4b サーバ
5 情報収集仕分装置
6a 画像データ処理装置
6b 文字データ処理装置
6c 付随データ処理装置
7 統合処理装置
11 投稿情報収集部
12 データ仕分部
13 画像データ処理部
14 文字データ処理部
15 付随データ処理部
16 統合処理部
17 抽出判定部
20 投稿情報
21 本文
22 付帯画像
23 プロフィール画像
24 ユーザー名
25 アカウント名
26 投稿時間
27 アクション数
28 反応数

Claims (9)

  1. インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集部と、
    前記投稿情報収集部で収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分部と、
    前記データ仕分部で仕分けられた画像データを学習データに基づいて処理し、複数区分に対する前記画像データの類似度を算出する画像データ処理部と、
    前記データ仕分部で仕分けられた文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する前記文字データの類似度を算出する文字データ処理部と、
    前記データ仕分部で仕分けられた付随データを数値化する付随データ処理部と、
    前記画像データ処理部で算出された複数区分に対する画像データの類似度、前記文字データ処理部で算出された複数区分に対する文字データの類似度及び前記付随データ処理部で生成された付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理部と
    を備える情報抽出装置。
  2. 前記統合処理部で算出された値に基づいて、前記投稿情報を抽出するか否かを判定する抽出判定部を備える請求項1に記載の情報抽出装置。
  3. 前記画像データ処理部は、投稿画像のデータとその他の画像のデータを、それぞれ異なる学習データに基づいて処理し、画像データ毎に複数区分に対する類似度を算出する請求項1又は2に記載の情報抽出装置。
  4. 前記文字データ処理部は、前記自然言語処理により前記文字データの感情分析を行う請求項1〜3のいずれか1項に記載の情報抽出装置。
  5. 前記文字データ処理部は、更に、前記文字データをハッシュ処理して数値化し、
    前記統合処理部は、複数区分に対する文字データの類似度と共に前記文字データに対応する数値も統合する請求項1〜4のいずれか1項に記載の情報抽出装置。
  6. 前記統合処理部は、統計処理、機械学習又はその両方により、抽出対象情報との類似度合いを算出する請求項1〜5のいずれか1項に記載の情報抽出装置。
  7. 前記付随データは、投稿記事に関する各種データ及投稿者に関する各種データのうち1種又は2種以上である請求項1〜6のいずれか1項に記載の情報抽出装置。
  8. 1又は複数の情報抽出装置を用いて特定の投稿情報を抽出する方法であって、
    前記情報抽出装置により、
    インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集工程と、
    収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分工程と、
    前記投稿情報に画像データが含まれる場合は、学習データに基づいて前記画像データを処理し、複数区分に対する前記画像データの類似度を算出する画像データ処理工程と、
    前記投稿情報に文字データが含まれる場合は、前記文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する前記文字データの類似度を算出する文字データ処理工程と、
    前記投稿情報に付随データが含まれる場合は、前記付随データを数値化する付随データ処理工程と、
    前記複数区分に対する画像データの類似度、前記複数区分に対する文字データの類似度及び前記付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理工程と
    を行う情報抽出方法。
  9. コンピュータに、
    インターネットを介して、複数種のデータで構成される任意の投稿情報を収集する投稿情報収集機能と、
    収集された投稿情報の各データを、画像データと、文字データと、付随データに仕分けるデータ仕分機能と、
    前記投稿情報が画像データを含む場合は、学習データに基づいて前記画像データを処理し、複数区分に対する前記画像データの類似度を算出する画像データ処理機能と、
    前記投稿情報が文字データを含む場合は、前記文字データを、学習データに基づいて処理又は自然言語処理し、複数区分に対する前記文字データの類似度を算出する文字データ処理機能と、
    前記投稿情報の付随データを数値化する付随データ処理機能と、
    前記複数区分に対する画像データの類似度、前記複数区分に対する文字データの類似度及び前記付随データに対応する数値のうち2種以上を統合し、抽出対象情報との類似性を示す値を算出する統合処理機能と
    を実行させるプログラム。
JP2016199732A 2016-10-11 2016-10-11 情報抽出装置、情報抽出方法及びプログラム Active JP6714276B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016199732A JP6714276B2 (ja) 2016-10-11 2016-10-11 情報抽出装置、情報抽出方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016199732A JP6714276B2 (ja) 2016-10-11 2016-10-11 情報抽出装置、情報抽出方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2018063463A JP2018063463A (ja) 2018-04-19
JP6714276B2 true JP6714276B2 (ja) 2020-06-24

Family

ID=61966696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016199732A Active JP6714276B2 (ja) 2016-10-11 2016-10-11 情報抽出装置、情報抽出方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6714276B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5758831B2 (ja) * 2012-03-30 2015-08-05 楽天株式会社 情報提供装置、情報提供方法、情報提供プログラム、及びそのプログラムを記録するコンピュータ読み取り可能な記録媒体
JP2015230691A (ja) * 2014-06-06 2015-12-21 株式会社デンソー 情報提供装置

Also Published As

Publication number Publication date
JP2018063463A (ja) 2018-04-19

Similar Documents

Publication Publication Date Title
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN109325165B (zh) 网络舆情分析方法、装置及存储介质
CN110209764B (zh) 语料标注集的生成方法及装置、电子设备、存储介质
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN110163647B (zh) 一种数据处理方法及装置
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
US9552570B2 (en) Document classification system, document classification method, and document classification program
JP6144427B2 (ja) データ分析システムおよびデータ分析方法並びにデータ分析プログラム
Whitney et al. Don’t want to get caught? don’t say it: The use of emojis in online human sex trafficking ads
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
Delimayanti et al. The effect of pre-processing on the classification of twitter’s flood disaster messages using support vector machine algorithm
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Cordell et al. Disaggregating repression: Identifying physical integrity rights allegations in human rights reports
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
JP6745541B2 (ja) 情報処理装置、情報処理方法、プログラム及び画像情報表示システム
CN112183093A (zh) 一种企业舆情分析方法、装置、设备及可读存储介质
Priyoko et al. Implementation of naive Bayes algorithm for spam comments classification on Instagram
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
JP6714276B2 (ja) 情報抽出装置、情報抽出方法及びプログラム
CN111611394B (zh) 一种文本分类方法、装置、电子设备及可读存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
Jia et al. An ensemble machine learning approach to understanding the effect of a global pandemic on Twitter users’ attitudes

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191001

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200205

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200219

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200519

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200522

R150 Certificate of patent or registration of utility model

Ref document number: 6714276

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250